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OBJETIVOS 


e Introducir al alumno en el estudio del aprendizaje y la conducta. 
*e Conocer los antecedentes históricos de la disciplina. 


* Comprender los principios generales de la ciencia y el método científico co- 
mo forma de proceder en la psicología del aprendizaje. 


* Conocer la aproximación científica experimental de la psicología del apren- 
dizaje. 


+ Conocer la investigación con animales y las relaciones de la psicología del 
aprendizaje con otras disciplinas como la neurociencia, así como las impli- 
caciones prácticas de esta disciplina. 


11 


La psicología del aprendizaje es una disciplina que se encuadra dentro 
de la tradición de la psicología experimental que trata de explicar y predecir 
la adquisición, el mantenimiento y el cambio en la conducta de los orga- 
nismos como resultado de la experiencia. La conducta, desde el punto de 
vista de esta disciplina, es todo aquello que un organismo hace, incluyendo 
los fenómenos encubiertos como el pensar o la consciencia. Sin embargo, 
los procesos «mentales» no son la explicación de la conducta, sino otra 
conducta más que debe ser explicada. Las teorías modernas del aprendizaje 
señalan que la conducta es debida a una compleja interacción entre los fac- 
tores genéticos y las experiencias ambientales. Estas teorías están basadas 
en la observación y en la experimentación controlada, dando una explica- 
ción del aprendizaje y de la conducta en el marco de la ciencia natural. 


Conocer los fenómenos y principios que subyacen al aprendizaje es 
crucial para entender el comportamiento de los humanos o de cualquier 
otra especie. A medida que vayamos acumulando conocimientos sobre los 
procesos de aprendizaje seremos capaces de implementar sistemas educa- 
tivos más eficaces y que den lugar a mejores resultados, dispondremos de 
mejores herramientas para enfrentarnos a los distintos trastornos psicoló- 
gicos o a la pérdida de capacidades durante la senectud, o sencillamente 
podremos ayudar a las personas, si así lo desean, a tener un mayor control 
sobre su comportamiento. No cabe duda de que si a través del aprendizaje 
se adquieren prácticamente todas las conductas, la importancia de estos 
conocimientos podría ser incluso mayor, pudiendo dar lugar incluso a cam- 
bios en el funcionamiento de la sociedad. 
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1. ANTECEDENTES HISTÓRICOS DE LA PSICOLOGÍA 
DEL APRENDIZAJE 


1.1 Aproximaciones teóricas y filosóficas al estudio del aprendizaje 


Son numerosas las fuentes de conocimiento que pueden considerarse 
como antecedentes de la psicología del aprendizaje. De entre ellas destacan 
la teoría asociacionista clásica, el empirismo británico, el dualismo carte- 
siano, la reflexología y la teoría de la evolución. 


El asociacionismo tiene sus orígenes en la filosofía griega y se carac- 
teriza por asumir que los elementos del pensamiento están relacionados 
entre sí por simples reglas de conexión. Aristóteles (384-322 a.c.) estableció 
tres principios de la asociación: la semejanza, el contraste y la frecuencia 
contigua de ideas; que se convirtieron en la base de la teoría asociacionista 
clásica. Estas concepciones asociacionistas se combinaron con los presu- 
puestos empiristas que se desarrollaron en Inglaterra a partir del siglo XVI. 
Los empiristas británicos defendían que la única fuente de información 
acerca del mundo procede de 
la experiencia sensorial y que, 
en consecuencia, la mente se 
va desarrollando a lo largo de 
la vida de las personas como 
resultado de la experiencia. 
Con anterioridad al empiris- 
mo británico, Descartes había 
propuesto una distinción entre 
el conocimiento racional o ver- 
dadero, innato, proveniente de 
Dios, y la estructura mecáni- 
ca prefigurada del movimiento 
biológico, que separaba el com- 
portamiento racional, exclusi- 
vo del hombre, del comporta- 
miento irracional compartido 


4 René Descartes (1596-1650) 
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por los animales y el hombre. Conforme a esta distinción, mientras que la 
mente debía ser estudiada mediante la introspección, el cuerpo podía ser 
estudiado por el método de la ciencia natural; este dualismo permaneció 
en la base del corpus filosófico hasta el surgimiento del movimiento con- 
ductista en Norteamérica que dio carta de naturaleza a la psicología expe- 
rimental y a la psicología del aprendizaje. Descartes aportó también a la 
ciencia la noción de «arco reflejo», postulando que los movimientos reflejos 
se producían cuando algún acontecimiento externo excitaba algún órgano 
sensorial. El concepto cartesiano de arco reflejo fue ampliamente aceptado, 
y pensadores empiristas como Hartley (1705-1757) lo unieron a la teoría de 
la asociación de ideas para desarrollar una nueva concepción de la acción. 


La escuela reflexológica rusa, representada por investigadores como 
Iván M. Sechenov (1829-1905), Vladímir M. Bechterev (1857-1927) o Iván 
P. Pavlov (1849-1936), fue finalmente responsable de que el concepto de 
arco reflejo se incorporase de forma definitiva en la psicología experimen- 
tal. Por ejemplo, Sechenov (1866) afirmó que «... la causa inicial de toda 
conducta radica siempre, no en el pensamiento, sino en la estimulación 
sensorial externa, sin la cual el 
pensamiento no es posible» (to- 
mado de Herrnstein y Boring, 
1981, p. 321). La teoría sobre la 
adquisición de los reflejos con- 
dicionados de Pavlov (1927) 
recupera el principio de asocia- 
ción por contigiiidad y consoli- 
da los mecanismos de la asocia- 
ción. En sus experimentos con 
perros, un estímulo cualquiera, 
al que el animal era en prin- 
cipio indiferente, se le hacía 
seguir, casi inmediatamente, de 
la introducción de una pequeña 
cantidad de polvos de carne en 
la boca. Después de emparejar 


Ivan Pavlov (1849-1936) » 
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ambos estímulos repetidamente, el estímulo inicialmente neutro era capaz 
de provocar en el perro una reacción similar a la desencadenada por la 
comida. Estos estudios dieron lugar a la explicación del aprendizaje por 
condicionamiento, y a esta forma de aprendizaje se la denomina en la ac- 
tualidad condicionamiento clásico o pavloviano. 


Una última influencia en el surgimiento de la psicología experimental 
es la teoría de la evolución. Charles Darwin (1809-1882) fue el aglutina- 
dor más creativo del pensamiento evolucionista de su época y desarrolló 
una explicación sobre la evolución de las especies animales basada en la 
selección natural. Darwin (1859) negó la existencia de un impulso interno 
hacia la perfección, y con pruebas a su favor defendió en su sustitución 
el mecanismo de la selección natural. Darwin (1871) hizo la propuesta 
revolucionaria de que la naturaleza y el origen del hombre no era una 
cuestión filosófica o teológica, sino biológica. Estudios extensos natura- 
listas o anecdóticos le convencieron de que los humanos y los animales 
no eran fundamentalmente diferentes ni tenían distintos orígenes, ambos 
eran el producto de la evolución orgánica. En contraste con el pensamiento 
cartesiano, Darwin consideró la comunicación y la inteligencia desde una 
perspectiva científica natural; antecedentes rudimentarios o incluso formas 
altamente avanzadas se podían encontrar en el reino animal, apuntando 
hacia una continuidad mental entre los humanos y el resto de los animales. 
La teoría de la evolución estableció, en suma, el origen único de los seres 
vivos, una continuidad biológica en la aparición de las especies animales y 
facilitó la aceptación de un continuo conductual, es decir, una evolución de 
las capacidades mentales. Como señaló Domjan (1987), las ideas de Darwin 
hicieron el estudio de la conducta animal relevante para la comprensión 
de la conducta humana, si no crucial. Si los hombres se desarrollaron de 
formas primitivas animales, el estudio de las funciones cognitivas en los 
animales es esencial para la comprensión de los precursores biológicos de 
la mente humana. La máxima «natura non facit saltum!» es válida tanto 
para la conducta como para los órganos corporales. La conducta es para 
Darwin, además, un elemento importante del cambio evolutivo, pues «bajo 
condiciones cambiantes es al menos posible que pequeñas modificaciones de 
un instinto puedan ser beneficiosas para la especie» (Darwin, 1859. Incluido 
en Herrnstein y Boring, 1981, p.410). 


1. Del latín: la naturaleza no da saltos. 
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Este tipo de reflexiones de Darwin estuvieron presentes en los pioneros 
de la ciencia del aprendizaje, la motivación y la cognición animal. El inte- 
rés fundamental de Pavlov fue explicar el condicionamiento en términos 
de la actividad del sistema nervioso central. Thorndike estuvo principal- 
mente interesado en la ontogenia y filogenia del aprendizaje, y sus estudios 
ayudaron a estimular un análisis comparativo del aprendizaje. La segunda 
generación del estudio científico de la conducta se produjo en los años 
treinta, cuarenta y cincuenta del siglo XX, con figuras como Hull, Spence, 
Tolman y Skinner, que llegaron a dominar el campo de la psicología ex- 
perimental. 


La investigación básica en psicología ha mantenido desde entonces co- 
mo estrategia de trabajo la existencia de una continuidad entre los princi- 
pios de la conducta a lo largo de la evolución filogenética. Esta perspectiva 
ha puesto de relevancia que existen importantes semejanzas en las relacio- 
nes funcionales que gobiernan la conducta de los diferentes organismos, y 
que la continuidad conductual ascendente que sólo tenía un cierto respaldo 
desde la teoría de la evolución, posee hoy en día una sólida base empírica 
procedente de los laboratorios 
de conducta animal. En este 
sentido se puede afirmar que 
la evolución de las especies es 
tanto dominio de la biología 
como de la psicología. Así como 
la evolución biológica se preo- 
cupa exclusivamente de los pa- 
rámetros anatómicos y fisoló- 
gicos, la evolución psicológica 
estudia el área más compleja 
de la conducta, interesándo- 
se por cómo algunos tipos de 
comportamientos ayudan a la 
supervivencia y a la reproduc- 
ción. La teoría de la evolución, 
en definitiva, proporciona un 


Charles Darwin (1809-1882) » 
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poderoso marco conceptual para la psicología del aprendizaje y justifica la 
utilización de animales con fines experimentales. 


La teoría de la evolución, sin embargo, ha aportado algo más a la cien- 
cia psicológica. Darwin formuló una teoría del control externo, donde el 
ambiente a través de la selección natural constituye el primer mecanismo 
evolutivo. Años más tarde, Skinner (1938) hacía de nuevo hincapié en el 
ambiente, ahora como factor determinante de la conducta. Tanto la evo- 
lución biológica como conductual están controladas por las demandas del 
entorno, pudiéndose establecer un paralelismo entre la selección natural y 
la selección de la conducta por sus consecuencias (Smith, 1986). Este pa- 
recido entre el pensamiento de Darwin y el de Skinner, alejan a este último 
de las explicaciones ofrecidas por sus contemporáneos a los problemas del 
aprendizaje y la conducta. La defensa de la selección por sus consecuen- 
cias, y el paralelismo entre el condicionamiento operante y la selección 
natural, separan en gran medida a Skinner del asociacionismo heredado de 
la epistemología de los empiristas británicos. 


La teoría de la evolución tam- 
bién fue fundamental en el de- 
sarrollo del funcionalismo. En- 
tre las ideas básicas que manejó 
Darwin se encontraba el concepto 
de función, por el que las es- 
tructuras y procesos moldeados 
por la evolución realizan alguna 
función útil para el organismo. 
William James (1890) amplió este 
concepto de función a la mente 
consciente. Según este autor, la 
consciencia se da sin interrup- 
ción, sin ruptura, sin división, es 
como una corriente que fluye, y la 
función de la mente consciente, 
moldeada a través de la filogenia, 


«4 William James (1842-1910) 
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es adaptar el organismo al ambiente (véase Keller, 1973). James, sin embar- 
go, fue contrario a algunas ideas empiristas. Así, por ejemplo, pensó que el 
hombre posee funciones mentales innatas y modos de percibir que habían 
evolucionado a través de la selección natural y que no podían reducirse a 
meras asociaciones heredadas. 


1.2. La consolidación de la psicología del aprendizaje 
como ciencia experimental 


En el siglo XIx, cuando la psicología se estableció como disciplina 
científica, sus fundadores —Wundt, Titchener, Ebbinghaus— explicaron 
y entendieron los fenómenos mentales en base a unidades discretas, como 
las ideas, las sensaciones, los estímulos y las respuestas. Pensaron probable- 
mente en la misma línea que los físicos, para quienes el modelo dominante 
era el mecanicismo corpuscular. La materia se pensó que estaba formada 
por pequeñas unidades discretas (corpúsculos) que interaccionaban entre sí 
por colisión, de forma parecida 
a como lo harían las bolas de 
billar. De igual forma, los co- 
nexionistas del siglo XIX pensa- 
ron que sus unidades discretas 
interaccionaban por contacto 
—en el tiempo, más que en el 
espacio— lo que dio lugar a que 
se estableciese que el principio 
explicativo fundamental era el 
de la contigúidad. Si dos even- 
tos sucedían repetidamente en 
contigúidad, se formaría una 
asociación entre ellos. En psi- 
cología, este modelo se tradujo 
en la reflexología y la psicología 
estímulo-respuesta (E-R). 


Edward L. Thorndike (1874-1949) » 
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El conexionismo fue un buen comienzo porque proporcionó una for- 
ma más concreta de pensar sobre los fenómenos mentales y la conducta, 
pero sus limitaciones empezaron a ser aparentes con el cambio de siglo. La 
ley del efecto propuesta por Edward L. Thorndike (1874-1949) supuso un 
alejamiento del conexionismo simple. Según esta ley, la fuerza de la aso- 
ciación E-R (o percepción de la situación e impulso motor, en el lenguaje 
de Thorndike) no depende de los principios asociacionistas clásicos, más 
bien dichas asociaciones dependen de la propia consecuencia de la acción. 
A pesar de que su formulación se hizo en términos de contigúidad entre los 
estímulos, las respuestas y las consecuencias, los efectos «placenteros» o 
«displacenteros» introdujeron un nuevo cambio, aunque sutil, en el papel 
del tiempo, porque las consecuencias actuaban hacia atrás para fortalecer 
lo que las había producido. El efecto de una acción, pensó Thorndike, actúa 
retroactivamente para sellar la asociación que conduce a tal efecto. Ésta es 
la base del condicionamiento instrumental (u operante). 


John B. Watson (1878-1958), formado en la escuela funcionalista de 
Chicago, es, desde un punto de vista histórico, el fundador del conduc- 
tismo. Watson fue invitado a 
comienzos de 1913 a impartir 
una serie de conferencias en la 
Universidad de Columbia, opor- 
tunidad que aprovechó para ex- 
poner sus puntos de vista sobre 
la situación de la psicología 
norteamericana de entonces. 
Su conferencia inaugural apa- 
reció posteriormente publicada 
bajo el título «La psicología co- 
mo la ve el conductista» (Wat- 
son, 1913), trabajo conocido 
también como el «manifiesto 
conductista» donde se propone 
un cambio en el objeto de estu- 
dio tradicional de la psicología. 


4 John B. Watson (1878-1958) 
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Con Watson, la psicología abandonará el estudio de la mente o de la cons- 
ciencia, y como él mismo afirmó en el párrafo inicial de su manifiesto: «La 
psicología, tal como la ve el conductista, es una rama de las ciencias natura- 
les, objetiva y experimental. Sus metas teóricas son la predicción y el control 
de la conducta. La introspección no forma parte esencial de sus métodos, ni el 
valor científico de sus datos depende de la facilidad con que se puedan inter- 
pretar en términos de consciencia.» Este rechazo a la utilización de términos 
mentalistas, y a los estados mentales como objeto de estudio, le llevaron a 
desechar también la introspección como método de investigación experi- 
mental (para un tratamiento más exhaustivo véase Quintana, 1985; para 
una evaluación de su influencia sobre el desarrollo posterior de los conduc- 
tismos, véase Pellón, 2013). 


El tipo de explicación ofrecida por el conductismo se debe en gran medi- 
da al pensamiento de Conwy Lloyd Morgan (1852-1936), quien defendía la 
idea de que «en ningún caso debemos interpretar una acción como resultado 
del ejercicio de una facultad psíquica superior, si puede interpretarse como 
resultado del ejercicio de una facultad menos elevada en la escala psicológica» 
(Morgan, 1894, p. 53). Esta idea, conocida como el canon de Morgan, puede 
entenderse como la aplicación a la psicología de la ley general de la parsimo- 
nia, influyendo en que el objeto de estudio de la psicología fuera la conducta 
y en el rechazo del estudio de los procesos mentales. La concepción filosófica 
del positivismo también influyó en Watson, al establecer que la ciencia sólo 
puede construirse con hechos observables, que a su vez deben ser explica- 
dos por hechos también observables. Entusiasmado por la nueva psicología 
y defendiendo una posición ambientalista extrema, Watson llegó a afirmar: 
«Dadme una docena de niños sanos, bien formados y mi propio ambiente es- 
pecífico para educarles, y garantizo poder tomar cualquiera de ellos al azar y 
formarle para que sea especialista en lo que yo me proponga —médico, aboga- 
do, artista, comerciante, e incluso mendigo o ladrón— sin tener en cuenta sus 
talentos, aficiones, tendencias, capacidades, vocaciones o quiénes fueron sus 
antepasados.» (Watson, 1924, p. 104). La obra de Watson ha sido muy influ- 
yente en el desarrollo de la psicología contemporánea, baste destacar que la 
contribución de Watson, aunque experimentalmente un tanto reducida, fue 
la principal impulsora del posterior interés por la psicología del aprendizaje 
como núcleo central de explicación general de la psicología (Boakes, 1984). 


Durante los años treinta y cuarenta, la investigación en condicionamien- 
to y aprendizaje gozó de un auge extraordinario. Un grupo relativamente 
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amplio de investigadores norteamericanos, los llamados neoconductistas, 
centraron su interés y sus discusiones en torno a la naturaleza del aprendi- 
zaje. Fueron tiempos donde la formulación de teorías del aprendizaje pre- 
tendía dar una explicación coherente de la conducta animal y humana en 
general, y de esta época es necesario destacar a dos grandes investigadores: 
Clark L. Hull (1884-1952) y Edward C. Tolman (1886-1959). 


Clark L. Hull (1943) utilizó los principios de la asociación E-R para 
explicar el comportamiento. La consecución de un evento positivo, según 
Hull, refuerza la formación de una asociación E-R debido a una reducción 
del impulso, introduciendo así el concepto de motivación en la teoría de la 
conducta. La teoría de Hull (1952), en su posterior contrastación experi- 
mental, sufrió importantes modificaciones. Introdujo el concepto de incen- 
tivo para dar cuenta de algunos resultados experimentales imposibles de 
explicar con su teoría anterior. La consecución del reforzador, según Hull, 
reduce las necesidades del organismo (impulso) al tiempo que incita a la 
acción (incentivo), distinguiendo en consecuencia dos aspectos motivacio- 
nales de los reforzadores. La ejecución conductual dependería de la fuerza 
del hábito, del nivel de impulso 
y del valor del incentivo. 


Edward C. Tolman (1886- 
1959) comparte con Hull la 
defensa del método hipotéti- 
co-deductivo, pero se diferencia 
de sus contemporáneos en su 
concepción sobre la función de 
los reforzadores. Para Tolman 
(1932), los reforzadores no ac- 
túan directamente para estable- 
cer o fortalecer una conexión 
E-R, como pensaba Hull, sino 
que la conducta está determi- 
nada por eventos internos como 
las expectativas y las demandas, 


«4 Clark L. Hull (1884-1952) 
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eventos que no son directamente observables sino que se infieren a través 
de los cambios en la conducta. Afirmó que el objeto de estudio de la psicolo- 
gía es la conducta propositiva, que se manifiesta objetivamente a través de 
la conducta observable. El concepto de propósito constituye un constructo 
hipotético, algo que Tolman postula para poder explicar los cambios en la 
conducta, y que en psicología experimental se considera como variable in- 
termedia por situarse entre los estímulos y las respuestas (Tolman, 1932). 
Tolman es generalmente descrito en los libros de texto como el defensor 
de un esquema estímulo-estímulo en el aprendizaje. El organismo, con 
Tolman, no es un elemento pasivo en el que los cambios estimulares del 
ambiente provocan reacciones cuasi automáticas. Los animales elaboran 
y transforman la información que reciben del exterior, y es en función de 
estos cambios internos cómo los organismos emiten las respuestas. Esta 
postura se aleja en extremo de la proposición original de Watson, por lo que 
a veces resulta relativamente engañoso considerar a Tolman como un con- 
ductista cuando fue uno de los pioneros de lo que años más tarde se daría 
a conocer como psicología cognitiva. Tolman también destaca por haber 
sido, entre los clásicos de la psi- 
cología, quien más ha resaltado 
la distinción entre aprendizaje 
y ejecución, los animales pue- 
den estar aprendiendo una de- 
terminada tarea y, sin embargo, 
no ejecutar en ese momento 
la respuesta requerida para la 
consecución del premio (Tol- 
man, 1932). 


B. F. Skinner (1904-1990) es 
el último de los grandes clási- 
cos de la psicología experimen- 
tal. Es, sin duda, un psicólogo 
controvertido y un temprano 
disidente de la teoría E-R. El 
primer libro de Skinner se pu- 
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blicó en 1938 bajo el título «La conducta de los organismos: un análisis ex- 
perimental», donde el autor realiza un estudio exhaustivo de los principios 
y las leyes generales que gobiernan la conducta voluntaria de los organis- 
mos. Skinner (1938) definió la conducta voluntaria por presentarse «sin la 
intervención de un estímulo antecedente observable» (p. 20) y la denominó 
«operante libre», no manifestando un interés tan pronunciado por el estudio 
de las conductas reflejas, de forma contraria a lo que habían hecho ante- 
riormente Pavlov y el sector más influyente del conductismo norteamerica- 
no. El concepto de operante libre incluye un aspecto muy importante de la 
psicología, al resaltar que los organismos no tienen por qué depender de la 
aparición de un estímulo para la realización de una respuesta. La emisión o 
no de la respuesta depende del organismo y no de los estímulos ambientales 
antecedentes, aunque éstos, denominados ahora estímulos discriminativos, 
actúan como moduladores del momento adecuado para la realización de 
la respuesta. En este sentido, Skinner (1935) distingue entre las respuestas 
elicitadas o respondientes y las respuestas emitidas u operantes. Al señalar 
que los organismos emiten las respuestas voluntariamente hay que desta- 
car que, según Skinner, esta afirmación no implica necesariamente que la 
causa o explicación de la conducta se encuentre en cambios interiores en 
el organismo, como por ejemplo había afirmado Tolman con anterioridad. 
Por el contrario, Skinner (1966, por ejemplo) sostiene que la conducta de 
los organismos se mantiene por sus consecuencias ambientales, y aunque 
en apariencia la conducta parezca perseguir un fin («propósito» en la ter- 
minología de Tolman), la explicación de la conducta hay que buscarla en 
las consecuencias ambientales que en el pasado siguieron a la emisión de 
esa conducta en particular. La paloma, sujeto por excelencia de los expe- 
rimentos operantes realizados o dirigidos por Skinner, no picotea la tecla 
de la caja experimental «para» conseguir comida, sino que lo hace porque 
en el pasado la conducta de picar la tecla fue seguida de consecuencias 
positivas para la paloma. Aunque la conducta parezca perseguir un fin, su 
explicación real, sugiere Skinner, se encuentra en la historia del organismo 
y no en los acontecimientos futuros. 


Skinner se separó del modelo conexionista en dos aspectos radicales 
a través de los conceptos ya mencionados de conducta operante y control 
estimular. Cuando se buscan en un bolso unas llaves que han sido extra- 
viadas, es difícil encontrar estímulos que causen cada acto momentáneo 
de búsqueda, pero es fácil entender la situación (ausencia de llaves) y la 
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función de la actividad (localizar las llaves). Las respuestas deben ser con- 
sideradas como clases-concepto (Skinner, 1935). Un mismo cambio del am- 
biente, presionar una palanca o empujar una tecla, pueden ser realizados 
por el animal de muy diversas maneras, constituyendo todas ellas una mis- 
ma clase funcional. Estas clases se definen únicamente en base al efecto que 
la respuesta tiene en el ambiente, pero no en base a su forma o topografía 
particular: «El número de actos distinguibles que la rata tiene que hacer hasta 
producir el movimiento adecuado de la palanca es indefinido y muy grande. 
Estos constituyen una clase que queda suficientemente bien definida por la 
frase presionar la palanca'» (Skinner, 1938, p. 37). Las clases funcionales 
permiten así superar el carácter particular e irrepetible de una respuesta, y 
hacen posible la predicción y el control de la conducta (Meazzini y Ricci, 
1986). De esta manera, la relación entre una clase de movimientos de un 
organismo y una clase de acontecimientos ambientales, constituyen la uni- 
dad funcional del análisis de la conducta. La idea de definir la conducta, no 
en términos de movimientos musculares o apariencia (estructura), sino en 
términos de función, permitió el desarrollo de explicaciones seleccionistas 
de la conducta que se asemejan a aquellas de la teoría evolucionista. Des- 
de la perspectiva evolucionista resulta erróneo afirmar que las especies se 
adaptan al medio, así como resulta erróneo, según Skinner, afirmar que los 
organismos se ajustan a una situación ambiental dada. El medio es el que 
selecciona los rasgos adecuados, el medio es el que mantiene y moldea la 
conducta (Skinner, 1984). Este énfasis aleja a Skinner de las explicaciones 
ofrecidas por sus contemporáneos, distanciándose también de la formu- 
lación original de la ley del efecto propuesta por Thorndike. Thorndike 
afirmaba que la fuerza de los estímulos para actuar como reforzadores 
procedía de su capacidad para producir placer o reducir el dolor. Skinner 
nunca recurrió a explicaciones tan subjetivas para describir el efecto de los 
reforzadores, exclusivamente aludió a su efecto de incrementar o disminuir 
la probabilidad futura de la conducta, por lo que se identifica a Thorndike 
como el defensor de la ley teórica del efecto y a Skinner como el defensor 
de la ley empírica del efecto. Una categoría funcional de conducta (p. ej., 
la operante) es análoga a una población de organismos. Mientras que en 
la visión E-R no hubo papel para la variación en la respuesta, las explica- 
ciones seleccionistas asignan un papel central a la variación. El cambio 
evolutivo resulta de éxitos diferenciales entre variaciones en la población. 
Como resultado, las explicaciones seleccionistas descansan en la historia y 
los patrones de variación dentro de la población, que cambian a lo largo 
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del tiempo en respuesta a los patrones de variación con éxito. Dado que 
un patrón dentro de una población de organismos no puede ser evaluado 
en un punto del espacio sino sólo sobre un área geográfica (hábitat), de la 
misma manera un patrón dentro de una población conductual (categoría 
funcional) no puede ser evaluado en un punto en el tiempo sino sólo sobre 
una muestra amplia. El resultado es que el interés se traslada de los even- 
tos momentáneos a patrones ampliados de eventos. La variabilidad es una 
característica de la conducta que puede ser condicionable. Los organismos 
pueden ser recompensados no por hacer una respuesta particular, sino por 
hacerlo de una forma variable. Page y Neuringer (1985), por ejemplo, re- 
forzaron el picoteo de unas palomas a dos claves de respuesta. Los sujetos 
tuvieron que picar ocho veces a cualquiera de las dos teclas para conseguir 
la comida, pero la secuencia de picotazos a la derecha o a la izquierda no 
se podía repetir de ensayo a ensayo. Las palomas aprendieron a emitir pa- 
trones variados de comportamiento, lo que llevó a los autores a concluir 
que la variabilidad es una dimensión de la conducta. Cuando los sujetos 
no son recompensados por responder de una forma variable, sin embargo, 
muestran un comportamiento más estereotipado (Schwartz, 1980). 


El trabajo clásico de Staddon y Simmelhag (1971) demostró que el re- 
forzamiento actúa a través de principios de selección y variación. Cuando a 
palomas hambrientas se les presentó la comida de forma intermitente sin 
necesidad de ejecutar ninguna respuesta concreta, los animales mostraron 
patrones de comportamiento muy parecidos en los momentos en que la 
probabilidad de reforzamiento fue mayor, principalmente respuestas como 
el picoteo que están relacionadas con la obtención de la comida. Sin embar- 
go, en los momentos de baja probabilidad de presentación de la comida, la 
conducta de las palomas mostró una variabilidad extrema, manifestada en 
comportamientos como acicalamiento, erguimiento o giros. Este tipo de re- 
sultados llevaron a Staddon (1977) a proponer una teoría motivacional de re- 
gulación dinámica de la conducta. Se hará referencia a ella en el Capítulo 5. 


La idea de control estimular también contribuyó a resaltar la necesidad 
de estudiar la conducta en períodos temporales amplios. En lugar de asig- 
nar al estímulo el papel de causa momentánea, Skinner le asignó un papel 
análogo al hábitat en la biología evolucionista. Comparado con la noción 
de estímulo en la reflexología, la disposición (estímulo discriminativo) tiene 
una relación con el patrón de conducta que es más vaga que una causa mo- 
mentánea, si se puede considerar una causa en cualquier caso. La disposi- 
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ción podría decirse que modula el patrón extendido de conducta en su pre- 
sencia. Supongamos que alguien está sentado bajo una lámpara encendida 
y dirigiendo su mirada hacia las páginas de un libro abierto, ¿cómo juzgar 
si está leyendo o echando una cabezada? Deberemos observar durante un 
rato, ver si pasa las páginas y cómo se comporta. Sólo después de tales 
patrones extensos se puede categorizar la actividad con confianza. Esto se 
aplica no sólo a los juicios sobre la conducta de los demás, sino también 
sobre la de uno mismo. Muchas veces «leo» una página para descubrir pos- 
teriormente que no tengo ni la más remota idea de lo que he leído y de que 
estaba pensando en algo diferente. También es cierto de las preparaciones 
de laboratorio, ¿cómo juzgar si una rata está en el acto de presionar una pa- 
lanca? Una simple presión no es suficiente, de hecho, para distinguir entre 
la actividad exploratoria y la presión operante de la palanca, se necesita que 
la tasa de presión exceda el nivel basal establecido, un juicio que requiere 
una observación extensa. 


El análisis de la conducta se distanció de una ciencia basada en eventos 
momentáneos con Skinner, sin embargo su noción de las consecuencias fue 
fiel a la relación de contigúidad 
de Thorndike. No hay razón 
contundente, teórica o empíri- 
ca, por la que el reforzamiento y 
el castigo debieran pensarse co- 
mo una contigúidad entre una 
respuesta momentánea y una 
consecuencia momentánea; de 
hecho, la idea de que la conduc- 
ta está organizada en patrones 
extensos favorece el punto de 
vista de que las consecuencias 
son asimismo patrones exten- 
didos. Por ejemplo, Herrnstein 
(1970) estudió la ejecución en 
programas concurrentes de in- 
tervalo variable y demostró que 
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los animales emiten sus respuestas en una u otra alternativa dependiendo 
de la frecuencia de reforzamiento asociada a cada una de dichas alternati- 
vas de respuesta. La proporción del total de respuestas en cada alternativa 
fue aproximadamente igual a la proporción del total de reforzamiento local 
en cada programa. Herrnstein postuló la ley de la igualación para explicar 
la conducta de elección. Según esta ley, la tasa relativa de respuesta entre 
dos alternativas de respuestas concurrentes es igual a la tasa relativa de 
reforzamiento asociada con cada una de dichas alternativas. La conducta 
de elección de los organismos parece depender, por tanto, de las consecuen- 
cias a largo plazo de la conducta. Se explicarán estos conceptos de forma 
más detallada en el Capítulo 5. 


Es más, el reforzador demorado en el tiempo también puede reforzar 
la respuesta. Lattal y Gleeson (1990), por ejemplo, demostraron que la 
respuesta de presión de palanca en ratas se podía adquirir normalmente a 
pesar de que cada respuesta inició una demora de 30 segundos en la admi- 
nistración de la siguiente bolita de comida. Para clarificar lo incompleto de 
los eventos momentáneos, Rachlin (1994) recurre a la distinción aristotéli- 
ca entre causas eficientes y causas finales. Las causas eficientes son las que 
se pensarían como más apropiadas cuando se escucha la palabra causa: 
eventos antecedentes, normalmente inmediatos, que debido a la forma en 
que el universo está construido producen el efecto observado. Si A es una 
causa eficiente de B, entonces B es un evento que su ocurrencia necesita 
de A como evento antecedente. Una causa final es un patrón más amplio 
donde los eventos se acoplan y se relacionan entre sí, como las notas de 
una sinfonía se ajustan para crear la sinfonía, señala Rachlin. Cada nota 
se explica por su ajuste a la sinfonía, sin ello sería incompleta o diferente. 
Si A es la causa final de B, B se explica como una parte que encaja en A 
como un todo. Sin embargo, es tan fuerte la tendencia a ver las causas sólo 
como eventos inmediatamente antecedentes, que las causas finales son a 
menudo confundidas con causas eficientes que ocurren en el futuro y se 
rechazan como imposibles. La confusión es mayor si un sistema se dice 
que se «mueve hacia» un estado final o meta, porque estas palabras pueden 
sugerir eventos en el futuro, aunque también se pueden entender como 
patrones extensos que se desarrollan o clarifican con el tiempo. El error 
resultaría de una preocupación por los fines que haga referencia a causas 
eficientes futuras. Las causas finales constituyen un tipo diferente de causa 
y una noción diferente del tiempo. 
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Pepper (1942) distinguió, entre otros sistemas filosóficos, el mecanicismo 
y el contextualismo. El mecanicismo, que en psicología podría estar repre- 
sentado por la teoría E-R o por la teoría cognitiva del procesamiento de la 
información, hace alusión a la metáfora de la máquina, donde se asume que 
sus partes interaccionan para producir el funcionamiento de la máquina en- 
tera. El científico formula hipótesis que van dirigidas a preguntar sobre las 
causas de la conducta (¿cómo?). Las causas eficientes y su análisis llevan en 
último término a preguntarse por los mecanismos”. Sin embargo, dado que 
todas las causas eficientes pueden en teoría retrotraerse a otras anteriores, 
no hay una última causa eficiente de un acto. El contextualismo, por el con- 
trario, hace alusión a la metáfora del acto en contexto, pues las cosas se ven 
siempre como cambiantes. La actividad científica seguiría los dictámenes de 
una teoría operacional de la verdad; en este sentido el conductismo skinne- 
riano podría entenderse como contextualista (Hayes, Hayes y Reese, 1988; 
Morris, 1993). Preguntándose por la función de la conducta (¿por qué?) se 
está haciendo referencia a causas finales. Dado que virtualmente cada acto 
puede acoplarse en un acto todavía más molar, todas las causas finales pue- 
den en teoría dilatarse con el tiempo en otras más amplias. 


Para terminar este apartando es importante señalar que los estudios y 
teorías de estos autores, y otros muchos que no son tratados aquí, han con- 
tribuido a la consolidación del estudio científico del aprendizaje y han he- 
cho que se convierta en un área fundamental dentro de la psicología actual. 


2. CONCEPTO Y MÉTODO EN LA PSICOLOGÍA DEL APRENDIZAJE 


2.1 Marco filosófico de la psicología del aprendizaje 


Como señalábamos anteriormente, las teorías y explicaciones de la 
psicología del aprendizaje están basadas en la observación y en la experi- 
mentación controlada, compartiendo la concepción positivista del materia- 
lismo, monismo y determinismo del resto de las ciencias naturales. 


La concepción materialista de la ciencia considera que la única realidad 
del mundo es la materia, que ésta existe objetivamente, y que los fenómenos 
tienen que ser explicados en función de las condiciones y movimientos de 
los componentes que la constituyen. Según esta postura los fenómenos de 
aprendizaje no pueden ser una excepción y estar en una realidad diferente, 
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sino que son continuos en el orden natural, las propiedades psicológicas son 
propiedades materiales como las físicas o las biológicas. Esta postura filo- 
sófica está en gran parte relacionada con el segundo de los principios enun- 
ciados, principio conocido como monismo. El monismo es una concepción 
metafísica que nace en Grecia con los filósofos presocráticos. Para ellos la 
naturaleza está conformada por un único elemento o arché y, por tanto, el 
universo estaría formado por una sola cosa o especie de substancia. En este 
sentido, tanto las concepciones idealistas como las materialistas son monis- 
tas, pero mientras para los idealistas la única substancia es la mente o el es- 
píritu, para los materialistas la única substancia es la materia, y alejándose 
de los planteamientos dualistas, el monismo materialista niega que la mente 
exista como entidad diferente del cerebro y el conductismo y la psicología 
del aprendizaje estarían enmarcados en esta postura. El dualismo se opone 
al monismo señalando que existen dos sustancias reales diferentes. 


El último de los principios, el determinismo, tiene que ver con el plan- 
teamiento sobre la existencia de la libertad. El libre albedrío o libertad de 
elección sostiene que las personas pueden elegir entre distintas alternativas 
sin que esto esté determinado por ningún paso o acontecimiento previo. En 
oposición a ello, la doctrina del determinismo afirma que cualquier hecho 
del universo depende de una cadena anterior de causas y efectos, y, por tan- 
to, la libertad de elección no existe, no pudiendo suceder más que lo que está 
preestablecido de antemano si seguimos esa cadena de causas y efectos. Así, 
se podría predecir el futuro desde el momento presente si conociésemos el 
estado de todas la variables que entran en juego, de la misma forma, también 
se podría saber qué ocurrió en el pasado conociendo de forma absoluta una 
situación puntual dentro de la cadena causal. Si el objetivo de la psicología 
del aprendizaje es explicar y predecir la conducta futura, ¿cómo podría cum- 
plir este objetivo si existiese la libertad de elección? Si una persona pudiese 
elegir libremente entre dos opciones no podríamos explicar en ningún caso 
su comportamiento futuro y la psicología no tendría sentido. Según esta pos- 
tura, nuestra experiencia de libertad es una ingenua ilusión. El conductismo 
de Skinner mantiene que la conducta está determinada por el ambiente o 
contexto, asumiendo de esta forma una postura determinista ambientalista 
(un ejemplo recomendable se puede ver en su ensayo «Más allá de la libertad 
y la dignidad»: Skinner, 1971). Cabe finalmente decir que a lo largo de la his- 
toria se ha tratado de resolver este dilema filosófico por medio de principios 
científicos sin que todavía se haya llegado a una solución definitiva. 


30 


ASPECTOS HISTÓRICOS, CONCEPTUALES Y METODOLÓGICOS EN EL ESTUDIO DEL APRENDIZAJE Y LA CONDUCTA 


2.2. El método científico aplicado a las ciencias del comportamiento 


Gracias a la ciencia, los seres humanos hemos alcanzado un conoci- 
miento del mundo mucho más vasto, preciso y riguroso. Al mismo tiempo, 
desde el momento en el que el saber científico se destina a la mejora de 
nuestro mundo natural, social y cultural, los conocimientos se trasladan a 
la innovación tecnológica, lo que ha dado lugar a que para muchos la exis- 
tencia pueda ser bastante más confortable. 


Las ciencias fácticas o materiales, como la física, la biología o la psi- 
cología, a diferencia de las ciencias formales, como las matemáticas o la 
lógica, tienen que mirar hacia los hechos o las cosas y, para confirmar sus 
suposiciones o hipótesis necesitan de la observación y/o del experimento. 
Aún más, estas disciplinas deben tratar de modificar los hechos de forma 
deliberada para saber en qué grado las hipótesis se ajustan a la realidad. 


Antes de empezar a estudiar las teorías y los principios generales de la 
psicología del aprendizaje es importante entender algunas cuestiones rela- 
cionadas con el funcionamiento de la ciencia en general. El vocablo ciencia 
proviene del latín scientia, del verbo scire (saber), y podría traducirse por 
conocimiento. La ciencia es una forma de aprender sobre el mundo en la 
que se evalúan las explicaciones de los eventos de forma acumulativa. A 
su vez, el método que la ciencia utiliza ha demostrado ser particularmente 
efectivo para explicar gran cantidad de fenómenos y solucionar distintos 
problemas. Sólo tendríamos que mirar hacia los importantes avances que 
se han producido en el campo de la medicina, la física o la biología, por 
hablar de algunos de ellos, para darnos cuenta de lo efectiva que es la 
ciencia para explicar lo que ocurre en el mundo que nos rodea. Uno de los 
objetivos fundamentales de la ciencia es la búsqueda de modelos que den 
cuenta de la mayor cantidad de observaciones posibles dentro de un marco 
coherente. 


Pero, ¿qué es científico y qué no es científico? Los objetivos fundamenta- 
les de la ciencia son describir, explicar y controlar o predecir (ver tabla 1.1) 
los fenómenos naturales asumiendo que para cumplir estos objetivos sólo 
se pueden utilizar explicaciones desde una visión natural de los hechos. 
Una disciplina científica no tiene la consideración de ciencia por la expli- 
cación de un determinado tipo de hechos o temas que pretende conocer, 
es decir por su objeto de estudio. Las distintas disciplinas se consideran 
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científicas por el método que emplean, y no por su temática, es decir, lo que 
caracteriza a una ciencia es la utilización del método científico para la ad- 
quisición de conocimientos más que el tipo de fenómenos que se estudien. 
El criterio de demarcación define los límites entre la cuestión de lo que se 
debe considerar ciencia y lo que no. Esta distinción se establece entre lo 
que es conocimiento científico y no científico, entre lo que es ciencia o es 
una pseudociencia y entre las concepciones científicas y las religiosas. Los 
límites entre lo que demarca lo que es ciencia y lo que no continúan siendo 
discutidos por los filósofos de la ciencia. 


Tabla 1.1. Objetivos de la Psicología del Aprendizaje 
como disciplina científica 


A través de la observación, recopilar datos sobre la conducta para 
definir con precisión los fenómenos de aprendizaje 


Explicar Establecer las causas de la conducta 


Predecir Pronosticar una respuesta en relación con un acontecimiento futuro 


Alterar las condiciones que se supone que causan la conducta para 
modificarla en el futuro 


Controlar 


2.2.1. La psicología del aprendizaje como ciencia experimental 


Todas las disciplinas científicas para poder construir su conocimiento 
parten Oo asumen una serie de presupuestos básicos que no es posible de- 
mostrar por medio de la contrastación con los hechos. Sin estos supuestos 
metafísicos o axiomas no se podría edificar la ciencia. Entre estos presu- 
puestos estarían los siguientes: 


La tesis o principio ontológico de realismo, que afirma que existe una 
realidad que estudiar y que esta realidad existe independientemente del 
conocimiento humano, es decir, que aunque la ciencia no haya sido capaz 
de encontrar la explicación de algún fenómeno, los fenómenos tienen una 
causa con independencia de que puedan ser explicados. 


La tesis o principio de legalidad, que sostiene que la realidad está some- 
tida a las leyes naturales y que la naturaleza es regular. Una versión de este 
principio es el del determinismo científico, que considera que aunque el 
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universo esté sujeto a una gran complejidad evoluciona según unas reglas 
predeterminadas, que una vez conocidas, permitirían predecir los hechos 
futuros y esclarecer los pasados. 


La tesis gnoseológica o principio de inteligibilidad, que sostiene que la 
realidad puede conocerse, es decir, que los humanos tenemos la capacidad 
de comprender la naturaleza. 


Para muchos filósofos la ciencia no es un saber seguro sino hipotético 
y basado en conjeturas, que se construye mediante el método deductivo 
y no inductivo, y que debe estar sometido a la falsación y no a la verifica- 
ción. El principio de falsación o refutación fue enunciado por el filósofo 
austriaco Karl Popper (Popper, 1959). Según este principio, una proposi- 
ción es científica si puede ser refutable o falsable, es decir, que sea suscep- 
tible de ponerse a prueba y que los hechos o experimentos que den lugar 
a resultados opuestos puedan llegar a desmentirla. Si una teoría no es po- 
sible refutarla, dicha teoría queda confirmada, pudiendo ser aceptada de 
forma provisional, pero en ningún caso es verificada. Así, siguiendo esta 
interpretación, el trabajo del científico consistiría principalmente en criti- 
car las leyes y principios de la naturaleza anteriormente enunciados para 
tratar de reducir el número de las teorías compatibles con las observacio- 
nes experimentales de las que se dispone. Siguiendo esta aproximación, el 
propio carácter del método científico impide la confirmación definitiva de 
las hipótesis y, por tanto, los científicos no sólo buscan una acumulación 
de casos que cumplan lo que señala la hipótesis, sino que tratan constan- 
temente de obtener resultados contrarios basándose en el principio lógico 
de que un sólo caso que no encaje con la teoría es más importante que el 
número de confirmaciones. 


El principio de falsación surge a partir de los problemas derivados del 
conocido como inductivismo ingenuo (Chalmers, 1994), debido al hecho 
de que no se puede afirmar algo universal a partir de los datos particulares 
que ofrece la experiencia. Por muchos millones de cuervos negros que se 
vean, nunca será posible afirmar que «todos los cuervos son negros». Sin 
embargo, basta encontrar un sólo cuervo que no sea negro para poder afir- 
mar que «no todos los cuervos son negros». Buscando una solución a este 
problema, Popper introduce el falsacionismo como criterio de demarca- 
ción científica. Según este criterio, si una hipótesis o teoría no es refutable, 
es decir, no puede falsearse, entonces no pertenece a la ciencia. 
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2.2.2. El método científico 


Como señalábamos anteriormente, el carácter científico de cualquier 
disciplina está determinado por el método que emplea para la construcción 
de su cuerpo de conocimientos, es decir, vendrá determinado por la utili- 
zación del método científico o método hipotético-deductivo. Este méto- 
do consiste en hacer observaciones y análisis meticulosos, a partir de los 
cuales se formulan hipótesis que serán verificadas mediante experimentos, 
para el establecimiento posterior de leyes y teorías. Aunque esta no es la 
única forma de hacer ciencia, es la más utilizada y validada. 


El método hipotético-deductivo sigue las siguientes etapas o pasos esen- 
ciales (Figura 1.1): observación, planteamiento del problema y formulación 
de hipótesis, prueba de las hipótesis mediante experimentos, obtención de 
los resultados y elaboración de leyes y teorías. 


La primera etapa, o de observación científica, consistirá en observar 
y examinar directamente algún fenómeno de la naturaleza, describirlo en 
detalle y de forma cuidadosa, tratando de que los prejuicios no afecten a 
la forma de hacer las observaciones, y teniendo en cuenta que la observa- 
ción, sin embargo, siempre va a depender de las teorías previas con que se 
cuente. Para ello habrá que delimitar con precisión y sin ambigúedad el 
fenómeno observado y especificar los instrumentos de medición con los que 
se realizarán dichas observaciones. 


Una vez realizadas las observaciones, el científico pasará a la etapa en 
la que se planteará el problema de la investigación, que será la delimita- 
ción clara y precisa del objeto de la investigación. Durante esta fase es 
muy importante revisar la literatura científica existente sobre el problema 
que se está planteando. Una vez realizados estos pasos se formularán las 
hipótesis o preguntas de investigación necesarias que permitan contrastar 
los hechos. Una hipótesis consiste en hacer una serie de suposiciones y 
pronósticos formulando afirmaciones o enunciados que anteceden a otros 
y constituyen su fundamento, siendo una solución provisional que aún no 
ha sido confirmada para un determinado problema. Las hipótesis deberán 
ser puestas a prueba en la siguiente etapa, mediante la planificación y de- 
sarrollo de experimentos, que son procedimientos mediante los cuales se 
tratan de comprobar las hipótesis derivadas de los fenómenos observados a 
través de la manipulación y el análisis de las correlaciones de las variables 
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que se consideran que son posibles causas del fenómeno. Los experimentos 
estudian la relación entre las variables dependientes e independientes. Las 
variables independientes son aquellas que el experimentador controla, es 
decir, que puede variar y hacer que adopten distintos valores, mientras que 
las variables dependientes son aquellas en las que tiene repercusión la 
variable independiente y que el experimentador mide; en ellas se observan 
las manipulaciones de las variables independientes. 


Una vez realizados los experimentos y tomadas las medidas pertinentes, 
basándose en los resultados el científico establecerá teorías y leyes que le 
permitan seguir avanzando en la explicación de los problemas. La acumu- 
lación de distintas confirmaciones de una hipótesis, o de distintas hipótesis 
relacionadas da lugar a la formulación de una ley científica que da cobertu- 
ra a un fenómeno. Una teoría científica vendría a ser un conjunto de leyes 
que permiten describir, explicar y predecir adecuadamente la existencia de 
regularidades empíricas en relación con una realidad objetiva. Una teoría da 
cuenta de los hechos no sólo describiéndolos, además de una manera más o 


OBSERVACIÓN 


PLANTEAMIENTO DEL PROBLEMA 


FORMULACIÓN DE HIPÓTESIS 


ph 


PRUEBA DE LAS HIPÓTESIS (EXPERIMENTOS) 


RESULTADOS 


LEYES Y TEORÍAS 


id 


Figura 1.1. Etapas del método científico 
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menos precisa establece modelos conceptuales sobre dichos hechos, cuyos 
términos posibilitan la explicación y la predicción en conjunto. El significado 
del término teoría en el marco del método científico es muy diferente a la 
utilización popular del término. Su utilización en el lenguaje cotidiano ven- 
dría a ser un sinónimo de especulación o suposición, dando a entender que 
estamos diciendo algo sobre lo que no estamos seguros del todo, es decir, en 
términos de hipótesis científica (y no teoría) por su carácter no confirmado. 


La publicación, o comunicación científica, es el último paso de cual- 
quier investigación científica. Esta publicación deberá tener una serie de 
cualidades como la claridad y la precisión que posibiliten la replicación del 
estudio a otros investigadores, la utilización de una terminología universal- 
mente conocida y la objetividad, dando mayor relevancia a los hechos que 
provienen de los datos que a las opiniones o especulaciones del autor. 


La comunicación científica es muy importante para el avance de la cien- 
cia y el desarrollo de la sociedad. El secreto científico a lo que habitualmen- 
te suele dar lugar es al estancamiento de la cultura y al retraso en el desarro- 
llo tecnológico, teniendo como consecuencia unos resultados económicos 
nefastos, así como ser una potencial fuente de corrupción. Las sociedades 
modernas financian la investigación porque se han dado cuenta de que 
acaba revirtiendo importantes beneficios económicos, sociales y culturales. 


2.2.3. Nivel de análisis en la explicación científica 


Una de las características de la investigación y el conocimiento cientí- 
fico es que está fragmentado, es decir, dividido en diferentes disciplinas o 
abordajes que dan lugar a que el mundo pueda ser estudiado desde distin- 
tas aproximaciones o niveles de análisis, entre ellos el psicológico. El re- 
duccionismo consiste en la explicación de un fenómeno en términos de los 
elementos de un nivel de análisis inferior, y las teorías reduccionistas se ba- 
san en la suposición de que los sistemas más complejos se pueden explicar 
descomponiéndolos en elementos más simples. Partiendo del supuesto del 
materialismo se podría reducir todo conocimiento a una explicación a nivel 
físico y, desde esta perspectiva, se podría explicar toda la realidad, incluido 
el ser humano y, por tanto la conducta, en términos físico-químicos. Así, 
toda la complejidad de nuestra conducta, incluso los llamados procesos su- 
periores como el pensamiento o el lenguaje se reducirían al funcionamiento 
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de las neuronas, tratándose así de un sistema a cuya base sólo estarían las 
reacciones bioquímicas. 


Sin embargo, el nivel de análisis utilizado para la explicación de un 
fenómeno natural dependerá de la capacidad de explicación que dicho 
abordaje nos proporcione. En este sentido y, al menos hasta ahora, es muy 
difícil poder explicar por qué una persona está deprimida en función de los 
movimientos de los átomos y partículas que forman su cuerpo, y es mucho 
más fácil y a la vez abordable, explicar este comportamiento en función de 
las variables que nos proporciona el nivel de análisis psicológico. Por otro 
lado, también es cierto que en la práctica los distintos niveles de análisis no 
son completamente estancos, es decir, no están completamente separados 
unos de otros y existen puentes que han posibilitado la relación entre unas 
y otras disciplinas. Este sería el caso de disciplinas como la bioquímica, la 
psicología fisiológica o la genética molecular. 


En esta asignatura, las explicaciones de los fenómenos del aprendizaje 
serán descritas en términos del nivel de análisis psicológico, es decir, en fun- 
ción de las relaciones del organismo con el ambiente, y no en función de la 
actividad de las neuronas que forman los circuitos cerebrales, lo que no im- 
pide que en algún momento a lo largo de este libro se pueda dar algún ejem- 
plo en el que se traten las relaciones entre el sistema nervioso y la conducta. 


Una teoría científica debe explicar los fenómenos mediante componen- 
tes diferentes a los fenómenos mismos. Si no es así se corre el riesgo de caer 
en la explicación circular, es decir, explicar un fenómeno con los compo- 
nentes mismos del fenómeno. El problema de la circularidad está presente 
en bastantes definiciones psicológicas, sobre todo en las que los conceptos 
se infieren a partir de las conductas que deberían explicarse apoyándose 
en ellos. Por ejemplo, decimos que una persona es muy inteligente porque 
realiza muy bien una serie de pruebas, del mismo modo que decimos que 
hace bien esas mismas pruebas porque es inteligente. 


Aristóteles propuso que la ciencia no sólo debía describir el mundo sino 
que además debía de dar una explicación causal. Aunque definía cuatro 
tipos de causas (ver tabla 1.2), la causa final era la que para él tenía mayor 
importancia. La influencia aristotélica durante la época clásica y hasta el 
renacimiento dio lugar a que durante este período las explicaciones cientí- 
ficas tuviesen un carácter teleológico o propositivo. La ciencia moderna con 
su visión mecánica de la naturaleza reduce el pluralismo causal dándole 
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a la causa eficiente un papel exclusivo en la explicación del conocimiento 
científico, relegando las causas finales que fueron rechazadas y a las que se 
les adjudicó un carácter oculto y acientífico. Sin embargo, y como señalába- 
mos anteriormente, las causas finales entendidas como patrones extensos 
donde los fenómenos se acoplan entre sí, han sido de nuevo retomadas en 
la actualidad (Rachlin, 1994). 


Tabla 1.2. Tipos de causas según Aristóteles 


Causa material Aquello de lo que un objeto surge o está compuesto 
Causa formal Lo que da el ser o esencia a un objeto. 

Causa eficiente o motriz Aquello que produce el cambio o movimiento 
Causa final Para lo que el objeto existe 


El mismo Aristóteles ponía el ejemplo de una escultura del dios Zeus para explicar los 
distintos tipos de causas: si se trata de una escultura hecha de mármol por un escultor 
con la finalidad de embellecer la ciudad, la causa material es el mármol, la causa formal 
el ser el dios Zeus, la causa eficiente el escultor, y la causa final es embellecer la ciudad. 


2.3. Definición y objeto de estudio de la psicología del aprendizaje 


La psicología del aprendizaje es una disciplina científica dentro de la 
ciencia psicológica que trata de explicar las causas de la conducta y, de 
forma más específica, las causas de los cambios en la conducta. Aunque 
existen múltiples definiciones para referirse al aprendizaje, en el contexto 
de esta asignatura entenderemos por aprendizaje «cualquier cambio dura- 
dero en el repertorio conductual de un organismo que tiene lugar como resul- 
tado de la experiencia con los acontecimientos ambientales». Como vemos, el 
aprendizaje es un proceso que depende de la experiencia y que da lugar a 
cambios duraderos en la conducta, por tanto, nos interesará el estudio de la 
adquisición, el mantenimiento y los cambios relativamente permanentes en 
la conducta, entendiendo por conducta todo lo que el organismo hace, in- 
cluyendo las acciones encubiertas como el pensamiento o los sentimientos. 


Desde el momento en que nacemos, o incluso podríamos pensar que 
desde algún momento del desarrollo fetal, estamos aprendiendo cosas que 
nos ayudarán a adaptarnos al entorno en que vivimos, y estos procesos 
de aprendizaje estarán ocurriendo hasta el final de nuestra vida. Aunque 
algunas conductas son innatas, la mayor parte de ellas son adquiridas o 
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aprendidas mediante la práctica, y la mayoría de las veces a través de pasos 
que ocurren de forma gradual. Cuanto más alto es el nivel de una especie 
en la escala filogenética, los organismos suelen mostrar una mayor propor- 
ción de conductas adquiridas que innatas. El aprendizaje implica cambios 
a largo plazo, de manera que los cambios a corto plazo como los causados 
por la fatiga no son considerados aprendizaje. Asimismo, el aprendizaje 
se refiere a cambios causados por la experiencia, lo que hace que cambios 
duraderos como los debidos al desarrollo o al envejecimiento tampoco los 
consideremos como formas de aprendizaje. 


El aprendizaje tiene una importante función adaptativa ya que posi- 
bilita la modificación de las pautas de comportamiento en función de las 
demandas del entorno. Por el contrario, la conducta no aprendida, aun- 
que también adaptativa, depende de la programación genética, es menos 
flexible y se produce fundamentalmente en entornos muy delimitados ante 
demandas del ambiente muy específicas, elementales y predecibles. 


Los cambios en la conducta que son consecuencia del aprendizaje se de- 
ben a la relación del organismo con los estímulos ambientales, entendiendo 
por estímulo cualquier objeto o evento del ambiente percibido por los siste- 
mas sensoriales del organismo y que produce una respuesta conductual. Un 
estímulo puede ser el olor de un depredador, el sonido de una campana o el 
sabor de la comida, pero también puede ser cualquier otro evento como un 
descenso en la temperatura o el descenso de la iluminación. El principal su- 
puesto de la psicología del aprendizaje es que el conocimiento de los efectos 
del ambiente en la conducta a través de los procesos de condicionamiento o 
reforzamiento es la fuente de información más importante, si no la única, 
para entender el cambio en el comportamiento humano. 


2.3.1. La psicología del aprendizaje y los eventos privados 


El abordaje de los eventos privados ha sido y sigue siendo uno de los 
problemas más controvertidos en la psicología del aprendizaje. Las difi- 
cultades epistemológicas, teóricas y metodológicas que esto plantea es un 
asunto de tan importante trascendencia que ha dado lugar a discusiones 
especialmente intensas entre las diferentes tradiciones psicológicas. Una 
primera pregunta que surge cuando tenemos que enfrentaros con la forma 
de tratar los eventos privados es si pueden éstos ser objeto de estudio cien- 
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tífico de la misma manera que lo es la conducta observable. De igual forma 
surge el importante problema filosófico de si realmente existen. 


El conductismo radical como filosofía, al igual que el resto de las cien- 
cias, asume el monismo materialista y sigue un punto de vista determinista 
para la explicación de los fenómenos (ver Skinner, 1974). Si no es así, ¿cómo 
podemos abordar científicamente fenómenos, hechos, procesos o conductas 
que no pueden ser observadas y que pertenecen a la esfera de lo privado? 
Una forma de hacerlo podría ser dar a este tipo de conductas el mismo 
tratamiento que a cualquier otra conducta, aplicando las mismas leyes que 
para la conducta observable y empleando la metodología conductual para 
proseguir la investigación en este terreno. Para la psicología del aprendizaje 
lo que ocurre en el interior del organismo es de la misma naturaleza que 
lo que ocurre fuera, simplemente que hasta el momento no existe la forma 
en que lo podamos medir de forma directa. Sin embargo, no cabe ninguna 
duda sobre que los eventos internos deben ser abordados desde el marco de 
la ciencia natural. La psicología del aprendizaje incluye, por tanto, como 
su objeto de estudio todos los aspectos del comportamiento de los sujetos, 
teniendo en cuenta los comportamientos más simples y los más complejos, 
desde las conductas observables hasta los eventos internos privados. 


3. LA PSICOLOGÍA DEL APRENDIZAJE COMO DISCIPLINA 
CIENTÍFICA 


El interés de la investigación en psicología del aprendizaje es describir 
los principios generales subyacentes al comportamiento de una amplia ga- 
ma de especies y un extenso repertorio de situaciones. Esta forma de traba- 
jar no es exclusiva de la psicología del aprendizaje, al contrario, la mayoría 
de los esfuerzos de investigación de las distintas disciplinas científicas están 
encaminados a descubrir principios generales. 


3.1. La utilización de animales no humanos en la investigación 
sobre el aprendizaje 


En los laboratorios en los que se estudia el aprendizaje en muchos casos 


utilizan animales no humanos para realizar experimentos. Mayoritaria- 
mente suelen utilizarse ratas y palomas pero también se han utilizado otros 
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animales como pollos, conejos, peces e incluso caracoles. La utilización de 
animales en experimentos para la investigación del aprendizaje o en otras 
disciplinas es una cuestión muy controvertida y que genera bastante polé- 
mica en la actualidad. Entre las razones que se han esgrimido para defen- 
derla destacan su justificación teórica, los criterios éticos aplicados y la uti- 
lidad de los hallazgos que se obtienen tanto a nivel básico como aplicado. 


La experimentación animal, hoy en día, está muy controlada. Además de 
veterinarios y personal de laboratorio que se encargan de proteger la salud de 
los animales, existen comités éticos que se encargan de salvaguardar que los 
procedimientos utilizados conlleven el menor sufrimiento y que además se 
utilice el menor número de animales posible en los experimentos. Los veteri- 
narios y los responsables de la salud animal se encargan, además, de aconse- 
jar la utilización de medicación anestésica cuando se llevan a cabo cirugías, 
o analgésica cuando los animales sufren alguna molestia. A su vez, también 
se encargan de indicar el método de eutanasia que resulte menos doloroso y 
estresante posible para los animales, en el caso de que sea necesario su sacri- 
ficio. Cualquier grupo de investigación que quiera realizar un experimento 
con animales tiene que escribir un protocolo detallado que será presentado 
a los comités de bioética indicando el número de animales que se van a 
utilizar, su especie y sexo, el número de días que durará el procedimiento y 
el fin buscado con los experimentos. En general, son muy pocos los experi- 
mentos que conlleven sufrimiento y que sean aprobados por estos comités, 
solamente en algunos casos son autorizados para cuestiones muy concretas 
(por ejemplo, en los estudios sobre indefensión aprendida que implican falta 
de control sobre los acontecimientos, como se verá en el Capítulo 4). 


Como vemos, en general los animales para experimentación están muy 
bien cuidados porque existe un riguroso control sobre ello, pero además, 
debemos pensar que los investigadores también quieren que sus animales 
estén en buenas condiciones para no encontrar artefactos en los resultados 
de sus investigaciones, un animal enfermo o estresado se comportará de 
forma diferente a un animal sano, y eso no interesa a ningún investigador 
salvo que esté estudiando dichos fenómenos. 


Todas estas regulaciones protegen en mayor medida los derechos de los 
animales que, por ejemplo, la posesión de animales de compañía, ya que 
en estos casos los dueños no están sometidos a estos controles y estrictas 
regulaciones. Nadie vigila que estén limpios, que tengan las condiciones 
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sanitarias adecuadas, que vivan en hábitats adaptados a sus características 
o que sean mantenidos con dietas saludables. 


Aunque se han sugerido distintas alternativas a la experimentación en 
animales como es trabajar con cultivos celulares o tejidos, o desarrollar 
modelos matemáticos e informáticos, a día de hoy cualquier investigador 
sabe que estos abordajes no son factibles como métodos exclusivos para el 
estudio del aprendizaje y la conducta. 


3.2. Relaciones de la psicología del aprendizaje con otras disciplinas 


En relación con el amplio campo que ocupa la ciencia psicológica, la 
psicología del aprendizaje es una disciplina de contenidos básicos que se 
suele englobar dentro de la psicología general, la psicología experimental 
o los procesos psicológicos básicos. En la universidad española es una 
asignatura que suele estar adscrita a los departamentos de Psicología Bá- 
sica, aunque no tiene por qué ser así en todas las universidades, es más, 
en el contexto internacional puede formar parte de departamentos de 
Neurociencia. La investigación básica desarrollada por la psicología del 
aprendizaje ha dado lugar a numerosas e importantes contribuciones a la 
psicología a nivel profesional haciendo que sea una disciplina base para 
el estudio de otros procesos, y cuyos principios generales fundamentan 
muchas técnicas y procedimientos que utilizan otras disciplinas básicas 
o aplicadas como puede ser la psicología de la educación o la terapia de 
conducta en el ámbito clínico. Es importante también su aportación a las 
neurociencias mediante el desarrollo de modelos animales basados en las 
técnicas y procedimientos desarrollados por los analistas experimentales 
del comportamiento en el laboratorio. 


3.2.1. La psicología del aprendizaje y la terapia de conducta 


Una de las contribuciones más importantes de la psicología del apren- 
dizaje a la psicología profesional o aplicada es sin lugar a dudas la que 
tiene que ver con las técnicas utilizadas en la terapia (o modificación) de 
conducta. Aunque los desarrollos iniciales tienen que ver sobre todo con la 
aplicación de terapias basadas en el condicionamiento operante en niños 
O pacientes institucionalizados, mediante las terapias conocidas como de 
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tercera generación, de las que forma parte la psicoterapia analítico-fun- 
cional, las técnicas basadas en las leyes del aprendizaje han extendido su 
aplicación a cualquier tipo de trastorno psicológico. 


Las técnicas de terapia o modificación de conducta surgieron en los años 
60 a partir de las teorías de la psicología del aprendizaje como alternativa a 
los tratamientos tradicionales para la conducta anormal y como forma de 
superar las limitaciones e inconvenientes de las visiones clínicas tradiciona- 
les imperantes, sobre todo las de los modelos psicoanalíticos. Estas técnicas 
dieron lugar a un desarrollo y sofisticación importante en un breve lapso de 
tiempo. Como señala Yates (1970, p. 31): «Terapia del comportamiento es el 
intento de utilizar sistemáticamente aquel cuerpo de conocimientos empíricos 
y teóricos que resultan de la aplicación del método experimental en psicología 
y en disciplinas íntimamente relacionadas (fisiología y neurofisiología) con el 
fin de explicar la génesis y el mantenimiento de los patrones de conducta anor- 
males; y de aplicar dicho conocimiento al tratamiento o prevención de esas 
anormalidades por medio de estudios experimentales controlados del caso in- 
dividual, tanto descriptivos como correctivos». Las características generales 
comunes a los enfoques encuadrados en la terapia de conducta siguiendo 
a Kazdin (1978) serían: 


1. Tendencia a centrarse en los determinantes actuales del comporta- 
miento, más que en los acontecimientos pasados. 


2. Considerar el cambio de la conducta observable como el criterio 
fundamental. 


3. Especificación de la intervención en términos objetivos, facilitando 
poder replicarla en el futuro. 


4. Confianza en la investigación básica como fuente de hipótesis sobre 
el tratamiento y las técnicas terapéuticas específicas a emplear. 


5. Especificidad en la definición, tratamiento y medida de los proble- 
mas y objetivos en la terapia. 


Como vemos, estas características siguen las líneas fundamentales de la 
psicología del aprendizaje en cuanto a la objetividad y rigor científico per- 
seguido. Así, la terapia de conducta se conforma como una tecnología con 
fundamentos científicos y basada a nivel teórico en los principios y métodos 
de la psicología del aprendizaje validados de forma empírica. Estas técni- 
cas se basan en los desarrollos proporcionados por el condicionamiento 
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clásico y operante. Son bien conocidas las técnicas de exposición para el 
tratamiento de las fobias o la desensibilización sistemática desarrollada por 
Joseph Wolpe (1958) para eliminar la respuesta de miedo y la conducta de 
evitación; o la economía de fichas de Azrin (1968), en la que el control de 
las contingencias y la administración de premios y castigos son el elemento 
fundamental. 


A pesar de los avances que supusieron estas técnicas, tuvieron serios 
problemas en cuanto al abordaje de muchos problemas psicológicos y co- 
mo consecuencia de ello surgieron las terapias de segunda generación, que 
empezaron a emplear elementos «cognitivos» dando lugar a las terapias 
conocidas como cognitivo-conductuales, que se alejaron un poco de las 
teorías surgidas a partir de la psicología del aprendizaje. 


Las terapias de tercera generación, entre las que destaca la psicoterapia 
analítico-funcional, provienen de la tradición del análisis experimental del 
comportamiento pero se diferencian con respecto a las más clásicas en 
que no tratan solamente los cambios de primer orden, adoptan asunciones 
más contextualistas y se ocupan de tratar las acciones privadas como los 
pensamientos, sentimientos o intenciones como conducta. La psicoterapia 
analítico-funcional (Kohlenberg y Tsai, 1991) está basada en el conductis- 
mo radical de B.F. Skinner y se ha propuesto como la primera metodología 
terapéutica basada en los resultados de la investigación de esta corriente. 
Para esta terapia la propia relación entre cliente y terapeuta es considerada 
un proceso de cambio (Pérez Álvarez, 2004). Se lleva a cabo un análisis in- 
dividualizado de los problemas del paciente, sobre todo de los que aparecen 
durante la propia terapia, y se aplican intervenciones en vivo durante de las 
sesiones de tratamiento, considerando la conducta verbal como el material 
clínico más importante (Kohlenberg y cols., 2005). Por tanto, la psicotera- 
pia se centra en manejar las variables que el terapeuta tiene a mano para 
modelar, aumentar o reducir ciertas conductas. 


3.2.2. La influencia de la psicología del aprendizaje en el campo 
de las neurociencias 
La neurociencia es una de las áreas científicas que más ha avanzado y 


a la que se le ha prestado más atención durante los últimos años, siendo 
la aparición de sus descubrimientos en los medios cada vez más frecuente. 
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Tras la llamada Década del Cerebro (1990-1999), este órgano ha vuelto a 
la primera línea de la actualidad mediante dos proyectos millonarios, uno 
desde la Unión Europea, The Human Brain Project, y el otro desde Estados 
Unidos, el BRAIN (acrónimo en inglés de Brain Research Through Ad- 
vancing Innovative Neurotechnologies) que pretenden liderar los avances 
necesarios para comprender el cerebro humano. 


La neurociencia sigue una aproximación multidisciplinar para el estu- 
dio de las bases biológicas de la conducta y, por esto, es importante conocer 
cuáles son las relaciones entre esta aproximación al estudio del sistema 
nervioso y el estudio del aprendizaje en el nivel de análisis de la psicología. 
En este apartado examinaremos la influencia de los métodos y teorías sur- 
gidas a partir del análisis experimental del comportamiento en la teoría e 
investigación en neurociencias. 


La Sociedad para la Neurociencia (The Society for Neuroscience), la 
asociación más influyente del mundo en este campo, fue fundada por cien- 
tíficos procedentes de distintas disciplinas como la anatomía, la fisiología, 
la bioquímica, la farmacología, la biología, la psicología y otras que no nos 
pararemos a enumerar. En sus comienzos el grupo de científicos más nu- 
meroso estaba formado por psicólogos, de forma particular por psicólogos 
fisiológicos. Es por ello que la influencia de la psicología del aprendizaje 
sobre la neurociencia es debida fundamentalmente a las aportaciones de 
los psicólogos fisiológicos. Esta aproximación para el estudio del compor- 
tamiento animal, de forma particularmente relevante en relación con los 
procesos de aprendizaje y memoria, ha tenido una importante y profunda 
influencia sobre la teoría e investigación neurocientífica en cuanto a la 
implicación de las distintas regiones cerebrales en determinados compor- 
tamientos. Los representantes del punto de vista conductista más clásico 
se han mostrado alejados de los desarrollos de la neurociencia y son per- 
cibidos como «molestos» desde disciplinas como la neurociencia cognitiva 
sobre todo en relación con sus ideas sobre «la mente» o la consciencia. Sin 
embargo, otros conductistas contemporáneos no se han opuesto al estudio 
de las bases neurobiológicas del comportamiento, ni a participar en inves- 
tigaciones dentro del campo de la neurociencia. 


Uno de los problemas fundamentales de la neurociencia es entender qué 
está sucediendo tanto en neuronas individuales como en los circuitos que 
se forman cuando se produce el aprendizaje y la memoria. Por ejemplo, 
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¿qué procesos celulares detectan la coincidencia entre estímulos durante el 
condicionamiento clásico o entre la conducta y las consecuencias en el con- 
dicionamiento operante? ¿Cuáles son los sustratos neurales que almacenan 
esta información? ¿Cómo dan lugar posteriormente al cambio en la conduc- 
ta? Aunque estas formas de aprendizaje asociativo pueden ser diferenciadas 
procedimentalmente, ¿son diferentes o similares los mecanismos que los 
mantienen? Y si lo son, ¿cuál es el nivel organizacional en el que operan? 


Mediante sus modelos y teorías la psicología del aprendizaje ha genera- 
do una forma clara y objetiva de abordar los fenómenos psicológicos más 
complejos que ha sido de una utilidad enorme para las ciencias del cerebro. 
Los modelos animales basados en el condicionamiento operante han sido 
especialmente fructíferos para el estudio de la neurobiología de las adic- 
ciones (para un análisis de la importancia del análisis de la conducta en 
una disciplina como la farmacología, se pueden consultar las revisiones de 
Blackman y Pellón, 1993; y Pellón 1990). El modelo de autoadministración 
intravenosa de drogas (Figura 1.2) se considera uno de los modelos anima- 
les más validados y aceptados para el estudio de un trastorno del compor- 
tamiento. Esta preparación experimental permite que las ratas u otros ani- 
males se administren libremente drogas sin necesidad de intervención por 


Ordenador 


Figura 1.2. Autoadministración intravenosa de drogas. 
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parte del investigador. El sujeto, mediante la presión de una palanca, activa 
una bomba de infusión que está controlada por un ordenador y le dispensa 
una inyección de la solución con la droga. Las ratas y otros animales, en ge- 
neral, se autoadministran las mismas drogas de las que abusan las personas 
y los estudios que han empleado este procedimiento han permitido conocer 
cuál es el potencial de abuso de diferentes drogas. 


Posteriores sofisticaciones del modelo han llevado a poder seleccionar 
animales cuya conducta es de «tipo adictivo» operativizando los criterios 
que definen la adicción según los manuales de diagnóstico psiquiátrico 
(DSM). En estos procedimientos, la dificultad para detener o limitar el 
consumo de la droga es evaluada mediante la persistencia en la presión 
de palanca por parte de los animales cuando la droga no está disponible; 
la alta motivación para tomar la droga, con sus actividades centradas en 
proporcionarse y consumir la droga, la determina el número de respuestas 
emitidas para obtener la droga cuando un programa reforzamiento hace 
que el requerimiento se vaya incrementando progresivamente, es decir que 
haya que presionar más veces la palanca para obtener la dosis (ver detalles 
en el Capítulo 5). Finalmente, el uso continuado de la droga a pesar de sus 
consecuencias perjudiciales es incluido en el modelo asociando una con- 
secuencia punitiva, es decir, un castigo como, por ejemplo, una descarga 
eléctrica cuando el animal presiona la palanca para obtener la droga. Este 
modelo ha demostrado que el porcentaje de ratas que cumple estos crite- 
rios es muy parecido al de los humanos que se hacen adictos a la cocaína 
(Deroche-Gamonet, Belin y Piazza, 2004). 


Teniendo en cuenta todo lo expuesto a lo largo de este capítulo, nos 
podemos hacer cargo de la importancia de la psicología del aprendizaje 
dentro de la psicología. Este área de estudio ha sido capital para el desarro- 
llo de la psicología como disciplina y sus aplicaciones prácticas han dado 
lugar a un enorme desarrollo en el ámbito profesional mediante la terapia 
de conducta. Finalmente, también ha sido determinante su influencia de 
cara a otros campos del saber como son las ciencias del cerebro. 


Todos los organismos vivos tienen que interactuar con un ambiente 
externo y deben responder a él tratando de maximizar su probabilidad 
de supervivencia y reproducción. Si un organismo aprende, será capaz de 
modificar su conducta en relación al ambiente y potencialmente aumentar 
su probabilidad de supervivencia. En los siguientes capítulos veremos que 
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cuando los animales están en su hábitat se enfrentan constantemente con 
un ambiente cambiante. Para ellos es muy ventajoso poder predecir los 
eventos ambientales que son más salientes. El condicionamiento clásico 
y el operante son procesos fundamentales mediante los que se adquieren 
memorias predictivas. Como veremos en los siguientes capítulos median- 
te el condicionamiento clásico un estímulo inicialmente neutro (estímulo 
condicionado, EC) que precede a un suceso importante para el animal (es- 
timulo incondicionado, El) puede funcionar como un predictor del mismo. 
Cuando la asociación entre EC y El se ha producido, el animal puede pro- 
ducir una respuesta anticipatoria (respuesta condicionada, RC) cuando se 
presenta el EC. En el condicionamiento operante, los animales aprenden a 
anticiparse a sucesos importantes (apetitivos o aversivos) que ocurren con- 
sistentemente como resultado de la propia conducta del animal. Mediante 
la asociación entre la conducta y las consecuencias de la misma, el animal 
aprende sobre las consecuencias de su conducta y ajusta la frecuencia de 
sus conductas a estas consecuencias. Debido a esto, estas dos formas de 
aprendizaje constituyen mecanismos adaptativos fundamentales para la 
conducta de los organismos. Es más, sin ellos posiblemente la evolución 
habría sido otra. 
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OBJETIVOS 


e Conocer los comienzos del estudio del condicionamiento clásico. 
e Conocer los procedimientos de condicionamiento excitatorio e inhibitorio. 


e Conocer algunas de las preparaciones fundamentales del condicionamiento 
clásico, como el condicionamiento palpebral, el seguimiento del signo, la 
supresión condicionada y la aversión condicionada al sabor. 


e Conocer los procedimientos de medición indirecta de la respuesta condicio- 
nada. 


e Conocer la extinción y sus fenómenos: la desinhibición, la recuperación es- 
pontánea, la renovación y el restablecimiento. 
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En nuestro ambiente suelen aparecer estímulos de forma predecible, 
cuando vemos nubes negras después suele llover, los atascos en la carretera 
suelen ser a ciertas horas todos los días entre semana, comer un determi- 
nado alimento nos sienta mal... Aprender a predecir lo que va a pasar en 
nuestro entorno nos permite adecuar nuestro comportamiento a lo que va 
a venir, dando una respuesta apropiada con antelación. Cuando estamos 
hambrientos y vemos u olemos, por ejemplo, un pastel, se nos hace la boca 
agua. Si en ese momento nos metemos el pastel en la boca, la digestión de 
dicho pastel será más fácil porque el cuerpo ha reaccionado antes de tener 
el alimento en la boca. Los animales que aprenden a predecir la comida 
aprovechan mejor los nutrientes que obtienen de ella (Woods y Strubbe, 
1994). También aprendemos aversiones a los sabores de lo que nos ha sen- 
tado mal o adquirimos preferencias por los sabores de lo que nos sacia el 
hambre. 


El condicionamiento clásico o pavloviano es el aprendizaje que se 
produce al presentar dos estímulos independientemente de la conducta 
del sujeto. El sujeto aprende a predecir un estímulo por la presentación de 
otro estímulo que le antecede, pero la conducta del sujeto no modifica la 
presentación de los estímulos. Este tipo de aprendizaje nos permite adap- 
tarnos mejor al entorno ya que establece nuevas conductas que se anticipan 
a los acontecimientos que van a suceder. El estudio del condicionamiento 
clásico se ha realizado principalmente en el laboratorio y en este capítulo 
veremos cuáles son sus fundamentos, cómo se estudia, cuáles son los pro- 
cedimientos para obtenerlo, cómo se puede extinguir y su incidencia en la 
adaptación al medio. 
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1. LOS COMIENZOS DEL ESTUDIO 
DEL CONDICIONAMIENTO CLÁSICO 


Como vimos en el capítulo 1, el contexto en el que surgieron las prime- 
ras investigaciones sobre condicionamiento clásico nos sitúa en la Rusia de 
finales del siglo XIX, concretamente en el laboratorio del reputado fisiólogo 
Ivan Petrovich Pavlov (1849-1936) del Instituto de Medicina Experimental 
de San Petersburgo. En dicho laboratorio se estudió durante años el fun- 
cionamiento del sistema digestivo de los perros (por cuyo estudio Pavlov 
recibió el premio Nobel de medicina en 1904), y para ello Pavlov empleó 
técnicas quirúrgicas perfeccionadas por él mismo con el fin de revelar el 
funcionamiento normal del proceso digestivo y de manera que el animal 
pudiera llevar una vida normal tras la operación (sustituyendo la vivisec- 
ción como técnica de estudio, en boga en aquellos años). Gracias a dichas 
técnicas, Pavlov podía alimentar ficticiamente al perro, es decir, mediante la 
introducción de un tubo a nivel del esófago podía introducir comida en su 
boca recogiéndola sin que llegara al estómago, midiendo a su vez los jugos 
gástricos producidos mediante otro tubo introducido en su estómago. En el 
curso de estos experimentos también se observó que los perros segregaban 
jugos gástricos no sólo con la comida en la boca, sino ante la visión de la 
comida o de la persona que les daba de comer, y a estas secreciones las de- 
nominaron «secreciones psíquicas» (frente a las secreciones físicas provoca- 
das por la comida en la boca) porque consideraron que se debían al estado 
psicológico del perro de esperar la comida. Por tanto, si el proceso digestivo 
era un reflejo físico por la presencia de comida en la boca, las secreciones 
psíquicas serían el resultado de un reflejo psíquico. Este no era un hallaz- 
go novedoso, pero aplicar el método científico al estudio de estos «reflejos 
psíquicos» fue la gran aportación de Pavlov a la psicología, aunque no sería 
hasta años más tarde (finales de la década de 1890) cuando decidió estudiar 
metódicamente estos «reflejos psíquicos» (Boakes, 1984). Gracias a este 
estudio científico del condicionamiento clásico, Pavlov desarrolló el proce- 
dimiento, descubrió muchos de sus más importantes efectos e introdujo los 
términos que todavía hoy se utilizan para describirlo (Pavlov, 1927). 


Para el estudio de estos reflejos psíquicos se utilizó una respuesta di- 
ferente a los jugos gástricos. La saliva producida por el perro ante los dis- 
tintos estímulos que se le presentaban se recogió mediante una fístula en 
la glándula salivar. En un experimento típico, en una fase previa se hacía 
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oír al perro el sonido de un metrónomo y se medía la salivación producida 
(véase la Figura 2.1). En ese momento el sonido del metrónomo era un 
estímulo neutro para el perro y no producía ninguna respuesta más allá de 
la de orientarse hacia dicho sonido. Una vez comprobado esto, comenzaba 
el experimento que consistía en la presentación del sonido del metrónomo 
seguido de la introducción de la comida en la boca del animal. La comida, 
como hemos visto antes, es un estímulo que provoca por sí mismo una 
respuesta refleja de salivación. Tras varios ensayos de emparejamiento 
sonido-comida, el perro empezaba a salivar no sólo ante la comida, sino 
también ante el sonido. 


Figura 2.1 Representación de la preparación del condicionamiento clásico salival. Una 
cánula conectada al conducto salival recoge las gotas de saliva y las lleva a un aparato que 
registra los datos. 


Pavlov pasó a denominar los reflejos psíquicos reflejos condicionales 
cuando vio que la única diferencia entre dichos reflejos y los reflejos co- 
munes era que para establecerlos y mantenerlos había que cumplir ciertas 
condiciones. El término que ha perdurado, no obstante, es reflejos «condi- 
cionados» debido a una mala traducción al inglés del término ruso. Pavlov 
consideraba importante que la terminología que se usase pudiese describir 
cualquier experimento de condicionamiento clásico. Por tanto, en el ejem- 
plo de experimento que hemos mencionado, el sonido del metrónomo al 
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principio es un estímulo neutro (EN) que se convierte en condicional 
al depender la salivación ante este estímulo de su emparejamiento con la 
presentación de la comida. La respuesta de salivación obtenida ante este 
estímulo condicional (EC) es, por tanto, una respuesta condicional 
(RC). En cambio, la comida que es un estímulo que provoca una respuesta 
de salivación sin necesidad de un entrenamiento previo, es un estímulo 
incondicional (El). Por tanto, la respuesta de salivación obtenida ante la 
comida es una respuesta incondicional (RI). La Figura 2.2 resume estos 
términos. Como hemos mencionado más arriba, una mala traducción hizo 
que los términos condicional e incondicional, mejores por ser más descrip- 
tivos de la situación de condicionamiento, pasasen a ser condicionado e 
incondicionado y perdurasen de esta manera en la literatura del condicio- 
namiento clásico. 


Metrónomo — Comida EC — El 
Y Y 
Salivación  Salivación RC RI 


Figura 2.2 Los eventos cruciales en el experimento de Pavlov (izquierda) y los términos 
utilizados para describirlos (derecha). 


Por otro lado, al emplear esta terminología, los estímulos utilizados 
podían cambiar, en lugar de un sonido se podría presentar una luz pero en 
ambos casos se convertirían en estímulos condicionados tras su asociación 
con el El, que, a su vez, podría ser comida o una descarga, etc. El hecho de 
que cambien los estímulos concretos que se utilizan no modifica el diseño 
del experimento y los emparejamientos EC-El provocarán que en una prue- 
ba ante el EC en solitario se obtenga una RC. 


2. NATURALEZA DE LA ASOCIACIÓN 


Hasta aquí hemos visto cómo se empezó a estudiar este tipo de apren- 
dizaje llamado condicionamiento clásico. Pero, ¿qué es lo que se apren- 
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de? Ha habido dos respuestas principales a esta cuestión. Por una parte, 
se consideró, sobre todo en Estados Unidos por influencia de Thorndike 
(véanse los capítulos 1 y 4), que la asociación que se estaba aprendiendo 
era una asociación entre el metrónomo y la salivación (entre el EC y la RD), 
y que, por tanto, se establecería una asociación estímulo-respuesta (E-R), 
siendo en este caso la RC elicitada directamente por el EC (la teoría E-R 
se trata también en el capítulo 5). Por otro lado, el mismo Pavlov creía que 
lo que el perro estaba asociando era el metrónomo con la comida (el EC 
con el El), que se estaría estableciendo una asociación estímulo-estímulo 
(E-E), y que la RC, en consecuencia, sería elicitada por medio de la repre- 
sentación del El por el EC. La Figura 2.3 muestra un ejemplo de ambos 
tipos de asociación. 


Aprendizaje E-R Aprendizaje E-E 
Metrónomo (EC) Comida (El) Metrónomo (EC) ————=> Comida (El) 
Salivación (RC) Salivación (RI) | Salivación (RC) Salivación (RI) 


Figura 2.3 Ejemplo de una asociación estímulo-respuesta (izquierda) y de una asociación 
estímulo-estímulo (derecha). 


De esta forma, tenemos dos tipos de aprendizaje posibles, ¿cómo sa- 
ber cuál de los dos está realmente teniendo lugar? Uno de los métodos 
para poner a prueba qué aprendizaje se estaba dando ha sido someter 
a una devaluación al El. Por ejemplo, en un experimento con ratas se 
condicionó el miedo a una luz emparejándola con un ruido intenso. Tras 
completar el condicionamiento, un grupo de ratas recibió varios ensayos 
del ruido en solitario. Esta exposición hizo que las ratas de este grupo se 
habituaran al ruido (es decir, la exposición devaluó el valor del El). El 
grupo de control no recibió habituación al ruido. Al final del experimento, 
a ambos grupos se les presentó la luz y los resultados mostraron que las 
ratas habituadas al ruido mostraron menos miedo ante la luz que las ra- 
tas no habituadas (Rescorla, 1973). La Tabla 2.1 resume el diseño de este 
experimento, los resultados obtenidos y los resultados esperados por los 
dos tipos de explicaciones. 
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Tabla 2.1. Diseño del experimento de devaluación del El (Rescorla, 1973) 


Grupo Fase 1 Fase 2 | Prueba | Resultado Resultado E-R Resultado E-E 
Experimental Luz - Ruido Ruido Luz Poca RC Buena RC Poca RC 
Control Luz - Ruido — Luz BuenaRC| Buena RC Buena RC 


En la Fase 1 los grupos Experimental y Control reciben un condicionamiento de una luz (EC) 
seguida de un ruido intenso (El). En la Fase 2 se devalúa el El mediante la presentación repetida del 
ruido sólo en el Grupo Experimental, lo que produce habituación. En la fase de Prueba se presenta la 
luz en solitario a ambos grupos. Los resultados muestran que la habituación del ruido (devaluación 
del El) ha provocado una menor RC en el Grupo Experimental respecto del Grupo Control. Las dos 
últimas columnas muestran los resultados esperados si el aprendizaje era E-R o si era E-E. 


Analicemos este resultado. Si la asociación que se establece en el condi- 
cionamiento es entre la luz y el sobresalto (una asociación E-R), habituarse 
después al ruido no debería afectar a la RC ante la luz. Hay que tener en 
cuenta que los dos grupos reciben los mismos emparejamientos luz-ruido 
en la Fase 1, por lo que si hubiera habido un aprendizaje E-R, ambos gru- 
pos deberían haber mostrado el mismo nivel de condicionamiento ante 
la luz en la fase de prueba. Si la luz se ha asociado con el sobresalto (RI) 
directamente en la Fase 1, esta asociación no se verá alterada por la presen- 
tación del ruido en solitario y la respuesta ante la luz debería permanecer 
inalterada. Sin embargo, no fue así. 


Rescorla afirmó que el aprendizaje en la Fase 1 tenía que ser E-E, es 
decir, la asociación que se estableció fue entre la luz y el ruido, por lo que si 
la luz provocaba miedo es porque evocaba una representación del ruido en 
la memoria. En la Fase 2 se produjo la habituación del ruido y cuando en la 
fase de prueba se presentó la luz, la representación en la memoria del rui- 
do también había cambiado y la respuesta de miedo disminuyó. Por tanto, 
actualmente se considera que el condicionamiento normalmente produce 
una asociación entre el EC y el El, aunque se ha obtenido evidencia de que 
a veces ocurre un aprendizaje E-R (Rizley y Rescorla, 1972). 


3, SITUACIONES EXPERIMENTALES 


Hemos visto cómo Pavlov utilizó para sus experimentos la técnica de 
la fístula salival en sus perros. No obstante, actualmente se utilizan otras 
preparaciones con distintas especies como ratas, conejos y palomas. 
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3.1. Condicionamiento del miedo 


Watson y Rayner (1920) afirmaron que los patrones originales de reac- 
ción emocional en la infancia consistían tan sólo en miedo, ira y amor, por 
lo que debía existir un método simple mediante el cual el rango de estas 
emociones y sus compuestos pudiera incrementarse para poder dar cuenta 
de toda la complejidad de la respuesta emocional en los adultos. Según es- 
tos autores, dicho método era el condicionamiento pavloviano. Para poner 
a prueba esta afirmación hicieron uno de los experimentos más famosos 
de la historia de la Psicología, el experimento en el que condicionaron la 
respuesta de miedo en un niño de 9 meses, Albert B. 


Albert era un niño sano y particularmente impasible. En un primer 
momento le presentaron diversos estímulos y observaron la respuesta que 
provocaban en el niño. Los estímulos fueron una rata blanca, un conejo, un 
perro, un mono, máscaras con y sin pelo, algodón, periódicos ardiendo, etc. 
Ninguno de estos estímulos provocó una respuesta de «miedo». El miedo 
es un estado inferido de la conducta del sujeto por el experimentador y, en 
este caso, los autores lo operativizaron midiendo la conducta de retirada 
que provocaban los distintos estímulos en Albert. Por tanto, ninguno de 
los estímulos provocó una retirada, más bien la conducta más habitual fue 
la de manipulación en este primer momento. También se hizo sonar una 
barra de acero detrás del niño lo que le produjo sobresalto y llanto. En la 
fase de condicionamiento se presentó una rata blanca y, cuando el niño es- 
taba tocándola, se presentó el ruido de la barra de acero, lo que hizo que el 
niño se alejara de la rata. Tras varios emparejamientos rata-ruido, el bebé 
se apartaba de la rata sin necesidad de la presencia del ruido. El niño había 
desarrollado miedo a la rata. 


Por último, se realizó una prueba de generalización. Cuando se le pre- 
sentó un conejo blanco, Albert respondió alejándose lo más posible de él, 
quejándose y llorando. Otros estímulos produjeron una respuesta de menor 
magnitud (un perro, un abrigo de piel de foca, algodón blanco y una másca- 
ra de Santa Claus). Por tanto, el miedo condicionado a la rata se generalizó 
a los objetos peludos (se profundizará sobre el fenómeno de la generaliza- 
ción en el capítulo 6). 


Hoy en día es imposible realizar un experimento similar con sujetos hu- 
manos por razones éticas. No obstante, es importante seguir investigando 
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en el condicionamiento de las reacciones emocionales para poder conocer 
los mecanismos que subyacen a este fenómeno y qué tratamiento puede 
atenuarlas, por lo que la investigación se realiza habitualmente con ratas 
de laboratorio. Para ello, se introduce la rata en una caja de Skinner (véase 
Fig. 2.4a), y se le presenta un tono o una luz como estímulos condicionados. 
El estímulo incondicionado aversivo suele ser una breve descarga eléctri- 
ca, administrada directamente a través de un suelo de rejilla electrificado. 
Tras varios ensayos de emparejamiento EC-El, la respuesta condicionada 
de miedo consiste en la paralización de la rata ante el EC. La paralización 
es una respuesta de defensa específica que tiene lugar como respuesta a la 
anticipación de una estimulación aversiva. 


Para medir la paralización de la rata, se ha desarrollado una técnica 
llamada respuesta emocional condicionada (REC) o supresión condi- 
cionada que registra cómo el estímulo condicionado altera la actividad 
del animal. Esto nos da una medida indirecta de la paralización, viendo en 
qué medida la rata, cuando se presenta el EC, deja de hacer lo que estaba 
haciendo. Este procedimiento fue diseñado por Estes y Skinner (1941) y 
consiste en un primer momento en entrenar a la rata a presionar la palanca 
para obtener comida en la caja de Skinner. Una vez que la rata presiona 
la palanca a un ritmo regular comienza la fase de condicionamiento del 
miedo que consiste en varios ensayos en los que la presentación del EC 
durante 1 ó 2 minutos es seguida de una breve (0,5 segundos) descarga. 
Entre ensayo y ensayo hay una separación temporal de unos 20 minutos de 


(a) (b) 


1 2 3 4 5 6 
Bloques de 2 ensayos 


Figura 2.4. Supresión condicionada en ratas. (A) La preparación experimental. (B) Curva 
de adquisición típica. La medida de condicionamiento es la razón de supresión. 
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media. Tras varios ensayos la rata aprende a anticipar la descarga cuando 
se le presenta el EC, por lo que se queda quieta durante el EC (Bouton y 
Bolles, 1980), y deja de presionar la palanca. Cuando el EC desaparece, los 
animales vuelven rápidamente a presionar la palanca. 


Para saber en qué medida el EC suprime la conducta del sujeto, primero 
se cuentan el número de presiones de palanca emitidas durante el EC y du- 
rante un periodo de igual duración justo antes del EC, llamado periodo pre- 
EC. Entonces se calcula la razón de supresión mediante la siguiente fórmula: 


Respuestas durante el EC 


Razón de supresión = 
(Respuestas durante el EC + Respuestas durante el pre-EC) 


Cuando el EC no predice la descarga, el número de presiones durante 
el EC y durante el pre-EC será el mismo y la razón de supresión tendrá un 
valor de 0,5. Por ejemplo, si una rata ha dado 40 presiones durante el pre- 
EC y da otras 40 presiones durante el EC, la fórmula tomaría los siguientes 
valores, 40/(40 + 40) = 0,5. A medida que el EC va tomando valor predictivo, 
la rata irá paralizándose en su presencia. Por ejemplo, imaginemos que tras 
varios ensayos de emparejamiento EC-descarga la rata presiona 20 veces 
durante el EC. La razón de supresión quedaría de esta manera: 20/ (20 + 40) 
= 0,33 y esto nos indica que la rata se ha paralizado durante parte del EC. 
Si la rata suprimiera por completo su conducta durante el EC, los valores 
para el cálculo de la razón de supresión serían los siguientes: 0 /(0 + 40) =0. 
Esto significa que el EC predice por completo la ocurrencia de la descarga 
y nos indica un aprendizaje máximo. Por tanto, la escala es inversa, un ma- 
yor nivel de condicionamiento es indicado por un valor más bajo de razón 
de supresión. Esto se ve reflejado también en la representación gráfica de 
los datos de adquisición reflejados en la Figura 2.4b en la que la curva de 
adquisición es inversa, un valor más alto nos indica menor grado de con- 
dicionamiento, mientras que un valor de O nos indica condicionamiento 
máximo. Cuanto más pequeña es la razón de supresión más paralizado está 
el animal durante el EC debido al miedo que le provoca. 


La supresión condicionada también se ha utilizado con humanos adap- 
tando el procedimiento a un videojuego en el que el sujeto debía acabar con 
los marcianos que estaban invadiendo la Tierra disparando repetidamente 
un láser (es decir, presionando la barra espaciadora). Para que esta con- 
ducta se suprimiera, se activaba de vez en cuando un escudo anti-láser (es 
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decir, una luz parpadeante) y los marcianos aprovechaban para aterrizar en 
gran número si el sujeto seguía disparando. Este escudo anti-láser hacía de 
estímulo incondicionado o El. El EC consistía en un cambio en el color de 
fondo de la pantalla del ordenador que aparecía antes del escudo anti-láser. 
Al principio del entrenamiento los sujetos seguían presionando la barra 
espaciadora durante el EC igual que en el periodo pre-EC mostrando una 
razón de supresión media cercana a 0,5, pero en pocos ensayos dejaron de 
hacerlo alcanzando una razón de supresión media cercana a O (Arcediano, 
Ortega y Matute, 1996). 


3.2. Condicionamiento del parpadeo 


El reflejo palpebral consiste en el parpadeo que se produce cuando, por 
ejemplo, se acerca un objeto repentinamente a los ojos o cuando se dirige 
a los mismos un soplo de aire a través de una pajita. Este reflejo tiene lu- 
gar en distintas especies y su condicionamiento se produce al presentar, 
por ejemplo, un tono (EC), antes del soplo de aire en los ojos (ED). Tras un 
número suficiente de emparejamientos el sujeto parpadeará cuando oiga el 
tono, justo antes de la ocurrencia del soplo de aire. 


El condicionamiento del parpadeo se ha estudiado en humanos, perros 
y monos (Hilgard y Marquis, 1936), tambien en ratas (Hughes y Schlosberg, 
1938), pero la mayor cantidad de experimentos en los últimos años se han 
realizado con conejos debido a que el condicionamiento del parpadeo en esta 
especie presenta diversas características que suponen una ventaja para su 
estudio: los conejos son fácilmente accesibles, toleran bien la restricción de 
movimientos durante largos periodos y la ocurrencia del parpadeo espontá- 
neo es sumamente rara (de una a tres respuestas por hora). Además, la RC 
de parpadeo es fácil de medir y es más simple que otros tipos de respuesta 
que se miden en otras preparaciones de condicionamiento. Esta simplicidad 
ha hecho posible que se desarrolle gran cantidad de investigación sobre las 
bases neurobiológicas de este tipo de aprendizaje (Christian y Thompson, 
2003; Steinmetz, Gluck y Solomon, 2001; Thompson y Steinmetz, 1992). 


La preparación experimental del condicionamiento palpebral con co- 
nejos fue desarrollada por Gormezano que junto con sus colaboradores 
realizó un exhaustivo estudio de las variables que afectan a este tipo de con- 
dicionamiento (véanse Gormezano, 1966; Gormezano, Kehoe y Marshall, 
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Bloques de 20 ensayos 


Figura 2.5 Condicionamiento palpebral en conejos. (a) La preparación experimental. 
(b) Curva de adquisición típica. 


1983). En un experimento de condicionamiento palpebral, el conejo se si- 
túa dentro del aparato mostrado en la Figura 2.5a y se conecta a un equipo 
que permite registrar la respuesta de parpadeo. El estímulo incondicionado 
puede ser un soplo de aire dirigido al ojo o una breve descarga (0,1 segun- 
dos) en la piel situada debajo del ojo, mientras que el estímulo condiciona- 
do puede ser una luz o un tono. En un experimento de condicionamiento 
típico, se presenta el EC durante medio segundo seguido inmediatamente 
por el El que provoca una respuesta incondicionada de parpadeo. A medi- 
da que se suceden los emparejamientos EC-El, la respuesta de parpadeo se 
observa también ante el EC y el experimentador registra el porcentaje de 
ensayos en los que se observa la respuesta condicionada de parpadeo. El 
condicionamiento palpebral en conejos requiere de varios cientos de ensa- 
yos para desarrollar la RC (véase Fig. 2.5b). 


En los últimos años se ha retomado el estudio del condicionamiento del 
parpadeo en humanos (por ejemplo, Parker, Andreasen, Liu, Freeman, Pon- 
to y O'Leary, 2012; Weidemann, Best, Lee y Lovibond, 2013) debido a que 
es una conducta simple que puede ayudar a conocer procesos biológicos y 
psicológicos básicos. 


3.3. Seguimiento del signo 
Hasta ahora hemos visto varias situaciones experimentales en las que la 


RC era una respuesta refleja. Sin embargo, no sólo este tipo de respuestas 
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pueden ser condicionadas, como demuestra el paradigma del seguimiento 
del signo o automoldeamiento (Hearst y Jenkins, 1974; Locurto, Terrace 
y Gibbon, 1981). En este paradigma el sujeto se aproxima y toma contacto 
con el estímulo que le señala la disponibilidad de la comida. El primer ex- 
perimento en el que se estudió este tipo de condicionamiento fue realizado 
por Brown y Jenkins (1968) con palomas. Los sujetos eran situados en 
una caja de Skinner con una tecla circular situada en la pared que podía 
iluminarse y con un comedero retráctil (véase la Figura 2.6a). La tecla se 
encendía durante 8 segundos inmediatamente antes de que se activara el 
comedero dando acceso a la comida. Hay que hacer notar que las palomas 
no tenían que hacer nada para que se presentase la comida, el comedero 
se activaba automáticamente tras la iluminación de la tecla, independien- 
temente de lo que hicieran las palomas. Es, por tanto, una situación de 
condicionamiento clásico: se presenta una luz (EC) seguida de comida (ED. 
La respuesta condicionada que se obtiene en dicha situación experimental 
es un acercamiento y picoteo de la tecla iluminada (véase la Figura 2.6b), 
aun cuando dicho picoteo no tiene ningún efecto en la consecución de la 
comida. Además, se ha demostrado que es necesario el emparejamiento 
del EC con el El para que se produzca el picoteo de la tecla ya que éste no 
se produce si el EC y el El se presentan de manera aleatoria uno del otro 
(Gamzu y Williams, 1973). Por tanto, la tecla iluminada (EC) tiene que ser 
una señal o signo de que se va a presentar la comida (El) para que el sujeto 
se acerque y picotee la tecla iluminada (RC). Por otro lado, el EC tiene que 
tener una localización precisa para que se produzca su seguimiento. 


(a) (b) 
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Figura 2.6. Seguimiento del signo en palomas. (a) La preparación experimental. 
(b) Curva de adquisición típica. 
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Este efecto se produce incluso cuando la tecla iluminada está alejada del 
comedero. Hearst y Jenkins (1974) realizaron un experimento en una caja 
de Skinner más larga de lo habitual y colocaron una tecla en cada extremo 
de la caja, mientras que el comedero se situó en el centro. En el experi- 
mento, la paloma recibió ensayos de emparejamiento de la iluminación de 
una de las teclas con la comida, mientras la iluminación de la otra tecla 
no estaba relacionada con la comida, que sólo estaba disponible durante 4 
segundos. La paloma desarrolló seguimiento del signo, lo que en este caso 
implica que iba a picotear la tecla iluminada en un extremo de la caja y, 
después, se acercaba al comedero, incluso aunque no le diera tiempo de 
llegar para poder comer. Esto nos da una idea de la fuerza que adquiere un 
EC como señal de la comida. Como hemos dicho antes, la paloma no tenía 
ninguna necesidad de picotear la tecla iluminada para obtener el alimento, 
pero su asociación con la comida la convertían en una señal irresistible. En 
cambio, la iluminación de la tecla del otro extremo de la caja que no estaba 
relacionada con la comida no producía una respuesta de aproximación. 


El seguimiento del signo se ha estudiado con distintas especies como 
pollos, codornices, peces, lagartos, cobayas, gatos, perros, monos rhesus, 
monos ardilla y también en humanos, tanto en niños como en adultos (To- 
mie, Brooks y Zito, 1989), aunque la mayoría de los estudios se han reali- 
zado con ratas y con palomas. 


3.4. Aprendizaje de aversión al sabor 


Otra situación experimental ampliamente utilizada en la investigación 
del condicionamiento clásico es la aversión al sabor. En la naturaleza, los 
animales, tanto humanos como no humanos, tenemos que aprender qué 
alimentos son beneficiosos y cuáles son perjudiciales y el mecanismo que 
nos permite hacerlo es el condicionamiento clásico. Para adquirir una aver- 
sión a un sabor la ingestión de un sabor nuevo debe ir seguida de un ma- 
lestar gástrico que provoque náuseas. La experimentación sistemática de la 
aversión al sabor en el laboratorio se ha realizado principalmente con ratas. 
El procedimiento típico consiste en que el animal ingiera una comida o be- 
bida con un sabor novedoso (EC) y después se le inyecte una droga o se le 
someta a radiación (El) lo que le provoca malestar gástrico. El resultado de 
este emparejamiento es que el animal adquiere una aversión al sabor al que 
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Ejemplo 


El aprendizaje de 
aversión al sabor se ha 
observado en pacien- 
tes de cáncer tratados 
con quimioterapia. La 
quimioterapia causa 
náuseas como efecto se- 
cundario y los pacientes 
adquieren aversiones a 
los alimentos que han in- 
gerido antes de recibir el 
tratamiento (Bernstein, 
1978, 1991). Estas aver- 
siones adquiridas pue- 
den contribuir a la falta 
de apetito que muestran 
habitualmente los pa- 


ha sido expuesto, el sabor le produce náuseas 
y deja de consumirlo. Este aprendizaje es muy 
importante para la supervivencia del animal 
porque le ayuda a discriminar los alimentos 
beneficiosos de los que tienen consecuencias 
perjudiciales para su salud que son los que sue- 
len causarles malestar. Así, mediante el sabor 
los animales pueden aprender a distinguir los 
alimentos venenosos, lo que le confiere un gran 
valor adaptativo. 


El aprendizaje de aversión al sabor es un ti- 
po de condicionamiento clásico, pero tiene ca- 
racterísticas especiales. La primera es que pue- 
de llegar a adquirirse una fuerte aversión con 
sólo un ensayo de emparejamiento sabor-ma- 
lestar. La segunda característica especial es 


cientes de cáncer some- 
tidos a quimioterapia. 


que este aprendizaje tiene lugar incluso cuando 
transcurren horas entre la exposición al sabor 
y el malestar (Garcia, Ervin y Koelling, 1966). 


Ambas características son adaptativas desde un punto de vista evoluti- 
vo. Si un animal necesitara más ensayos de emparejamiento para adquirir 
aversión al sabor podría envenenarse. Por otro lado, muchas veces los ve- 
nenos no tienen un efecto inmediato en el organismo sino que su efecto se 
observa una vez que se ha hecho la digestión, lo que ocurre incluso horas 
después de la ingestión del veneno, así que, a lo largo de la historia natural, 
los animales que podían salvar el intervalo entre probar el alimento y su 
consecuencia venenosa tenían ventaja desde un punto de vista selectivo. 


4. PROCEDIMIENTOS DE CONDICIONAMIENTO PAVLOVIANO 
EXCITATORIO 


El condicionamiento pavloviano excitatorio se produce cuando se 
presenta un estímulo condicionado seguido de un estímulo incondiciona- 
do. Este emparejamiento, como hemos visto, produce una respuesta con- 
dicionada ante el estímulo condicionado en solitario. El perro saliva ante 
el sonido del metrónomo, la rata se paraliza ante la luz, el conejo parpadea 
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cuando oye el tono, la paloma picotea la tecla iluminada y la rata evita be- 
ber el agua con sabor. Todo esto lo hacen porque han aprendido que cada 
uno de estos estímulos predice la aparición del estímulo incondicionado. 
Como vemos, los estímulos incondicionados pueden ser apetitivos, como la 
comida, o aversivos, como una descarga o un malestar, pero en todos los 
casos el estímulo condicionado adquiere la capacidad de activar la conduc- 
ta relacionada con el El asociado. 


4.1. Procedimientos típicos del condicionamiento 
pavloviano excitatorio 


La ordenación temporal del estímulo condicionado y el estímulo in- 
condicionado es un factor crítico en la formación de un condicionamiento 
pavloviano. Como veremos, este factor influye en la fuerza del condiciona- 
miento que se adquiere. En general, podemos afirmar que el condiciona- 
miento se adquiere mejor cuando el EC ocurre antes del El, esto es, cuando 
el EC se convierte en señal de que va a presentarse el El. En este apartado 
vamos a presentar los procedimientos que se utilizan habitualmente para 
conseguir un condicionamiento pavloviano. 


La Figura 2.7 muestra los tipos de ensayos de los diferentes procedi- 
mientos típicos de condicionamiento clasificados en función del intervalo 
entre estímulos o intervalo EC-El que es el intervalo de tiempo que trans- 
curre entre el comienzo del EC y el comienzo del El dentro de un mismo 
ensayo. En un experimento típico de condicionamiento clásico también 
influye el intervalo de tiempo entre el final de un ensayo y el comienzo del 
siguiente, llamado intervalo entre ensayos. Para que se desarrolle la res- 
puesta condicionada el intervalo entre estímulos debe ser mucho más corto 
que el intervalo entre ensayos, es decir, los ensayos deben ser percibidos 
como unidades discretas y no lo serán si no hay suficiente separación tem- 
poral entre ellos. En función de estos parámetros se pueden estrablecer los 
siguientes tipos de procedimientos: 


1. Condicionamiento de demora. Este es el procedimiento de condicio- 
namiento más frecuente y que obtiene un mejor aprendizaje habitual- 
mente. En este procedimiento, el EC continúa presente al menos hasta 
que aparece el El. El EC puede continuar durante el El o terminar 
cuando empieza el mismo (en este caso se obtiene el mejor grado de 
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Figura 2.7 Procedimientos típicos de condicionamiento clásico. 


condicionamiento). El grado de condicionamiento puede decrecer si el 
intervalo EC-El excede algunos valores. Este intervalo depende de la 
preparación que utilicemos; en el condicionamiento palpebral el inter- 
valo entre estímulos óptimo es de 0,4 segundos pero apenas se obtiene 
condicionamiento con un intervalo de 2 ó 3 segundos (Gormezano, 
Kehoe y Marshall, 1983); en la supresión condicionada el intervalo óp- 
timo es más amplio, de unos 10 segundos aproximadamente y también 
es mayor el rango de tiempo en que se obtiene buen condicionamiento, 
aunque éste disminuye si se amplía demasiado (Yeo, 1974). Incluso en 
el procedimiento de aversión al sabor, en el que el aprendizaje es posi- 
ble con intervalos EC-El de 1 ó 2 horas, la respuesta condicionada dis- 
minuye a medida que el intervalo EC-El aumenta (Smith y Roll, 1967). 


. Condicionamiento de huella. En este procedimiento el El no se 


presenta hasta que no ha transcurrido cierto tiempo desde la termi- 
nación del EC. Por tanto, entre el final del EC y el comienzo del El 
hay un intervalo de tiempo que se denomina intervalo de huella. 
Este tipo de condicionamiento debe su nombre a la idea de que una 
«huella» neural del EC, más que el EC en sí, se empareja con el El. 
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Este procedimiento consigue un buen nivel de condicionamiento, 
pero empeora a medida que aumenta el intervalo de huella. 


. Condicionamiento simultáneo. En este procedimiento el EC y el El se 
presentan a la vez y tienen la misma duración, lo que significa que el EC 
no señala que el El va a ocurrir porque ocurren ambos al mismo tiem- 
po y la RC obtenida es escasa. Sin embargo, esta escasa RC no significa 
que no haya aprendizaje, ya que si se utilizan las pruebas adecuadas se 
revela una RC ante el EC (Burkhardt y Ayres, 1978). La mayoría de las 
respuestas que se utilizan para medir el condicionamiento se llevan a 
cabo porque ayudan al animal a afrontar el El que se va a presentar y 
esto nos puede llevar a subestimar el aprendizaje que está ocurriendo 
en un procedimiento simultáneo (Matzel, Held y Miller, 1988). En este 
caso hay que recordar la diferencia entre ejecución y aprendizaje, ya 
mencionada en el capítulo 1. El hecho de registrar una escasa ejecución 
(escasa RC) no significa que no haya habido aprendizaje. 


. Condicionamiento hacia atrás. Consiste en la presentación del El 
seguido del EC, es decir, se invierte el orden respecto a los otros proce- 
dimientos. El condicionamiento hacia atrás (EI-EC) habitualmente no 
produce tanta respuesta condicionada como los procedimientos proac- 
tivos (EC-ED, aunque se puede obtener cierto grado de condiciona- 
miento excitatorio (por ejemplo, Hearst, 1989; Plotkin y Oakley, 1975). 
No obstante, en este procedimiento el EC antecede a un periodo en el 
que no se presenta el El, el intervalo entre ensayos, por lo que mayo- 
ritariamente el sujeto trata al EC como una señal de «no El» (es decir, 
el EC es un estímulo inhibitorio, como se describirá en el apartado 5). 


4.2. Medición de las respuestas condicionadas 


Para poder medir el grado de condicionamiento que se da en un determi- 
nado procedimiento se utiliza un ensayo de prueba. Este ensayo consiste en 
la presentación del EC sin el El. De esta manera nos aseguramos de que la 
respuesta que estamos midiendo es la RC sin la influencia de la presencia del 
El que, recordemos, produce una respuesta por sí mismo (RI). Los ensayos 
de prueba son imprescindibles en los condicionamientos simultáneo y hacia 
atrás, porque si se midiera la RC en un ensayo normal de estos procedimien- 
tos la respuesta obtenida durante el EC estaría contaminada por la presencia 
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del El (condicionamiento simultáneo) o su presentación reciente (condiciona- 
miento hacia atrás). Incluso en el condicionamiento de demora puede darse 
cierto solapamiento entre el EC y el El si el EC continúa durante el El, por lo 
que también sería necesaria la presencia de ensayos de prueba del EC aislado. 


Los ensayos de prueba pueden introducirse durante el entrenamiento 
para poder hacer un seguimiento del proceso de aprendizaje, aunque habi- 
tualmente se sitúan al final del mismo para observar el resultado de todo el 
entrenamiento sobre la conducta del sujeto. 


La conducta del sujeto puede cuantificarse de diferentes maneras. Se 
puede registrar la magnitud de la respuesta condicionada, es decir, qué 
cantidad de conducta se está dando. Por ejemplo, en los experimentos rea- 
lizados por Pavlov se midió el número de gotas de saliva elicitadas por un 
EC. En la respuesta emocional condicionada (REC) también se registra la 
cantidad de supresión de la conducta que produce el EC. 


Otra manera de cuantificar la conducta es determinar la probabilidad de 
una RC registrando la frecuencia con que ocurre la RC ante el EC. Habitual- 
mente en los experimentos de condicionamiento palpebral en conejos, por 
ejemplo, se mide el porcentaje de ensayos en los que el EC provoca una RC. 


También se puede medir la rapidez con que aparece la RC cuando se 
presenta el EC. Cuanto más rápido aparezca la RC mayor será el condicio- 
namiento. Esta medida de la fuerza de la RC se denomina latencia de la 
respuesta condicionada. 


4.3. Procedimientos de control 


La obtención de una respuesta en un ensayo de prueba válido, es decir, 
en un ensayo en el que se presente el EC en solitario no es suficiente para 
afirmar que esa respuesta es debida a la asociación establecida entre el EC 
y el El. Para poder afirmar que ha habido condicionamiento debe haber 
un procedimiento de control que nos permita afirmar que el cambio con- 
ductual observado no se debe a la mera presentación del EC y el El por 
separado. Las respuestas que se producen como consecuencia de procesos 
distintos al condicionamiento se denominan respuestas pseudocondiciona- 
das. Un ejemplo de pseudocondicionamiento es la aversión que producen 
los sabores nuevos o neofobia: para que se obtenga esta aversión no hace 
falta que el sabor se haya asociado a un malestar gástrico, el hecho de que 
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el sabor sea nuevo para el sujeto es lo que produce la aversión en este caso 
y, por tanto, esta aversión no es una RC, sino una respuesta pseudocon- 
dicionada. Otro ejemplo de pseudocondicionamiento es la respuesta que 
se obtiene como resultado de la sensibilización. La sensibilización es un 
proceso de aprendizaje no asociativo y se produce cuando la presentación 
repetida de un estímulo en solitario produce cada vez más respuesta. Otro 
tipo de pseudocondicionamiento es el que se produce por la sola presen- 
tación de un estímulo incondicionado, como la comida, que incrementa la 
conducta ante un estímulo menos efectivo, como un tono, sin que se haya 
establecido una asociación entre ellos. Por tanto, para saber si la respuesta 
obtenida ante el tono es debida a un condicionamiento entre el tono y la 
comida (EC-ED), y no a la mera exposición al El o a cualquier otro tipo de 
pseudocondicionamiento, es necesario incluir procedimientos de control. 


Para asegurarnos de que se ha establecido una asociación entre el EC y 
el El, un procedimiento de control ideal debería tener el mismo número de 
presentaciones del EC y del El que el procedimiento experimental, con el 
EC y el El distribuidos de forma que no queden asociados. Una posibilidad 
es el control aleatorio que consiste en presentar el EC y el El de forma 
aleatoria durante la sesión experimental (Rescorla, 1967b). Este procedi- 
miento presenta problemas debido a que se han obtenido evidencias de que 
la presentación aleatoria del EC y el El puede dar lugar a condicionamiento 
excitatorio (para una revisión, véase Papini y Bitterman, 1990). Para que 
la presentación del EC y del El sea aleatoria en una sesión experimental 
debe haber cuatro tipos de ensayos entremezclados: ensayos en los que se 
presente el EC en presencia del El (EC-El), ensayos en los que se presente 
el EC solo (EC-no ED), ensayos en los que se presente el El solo (no EC-El) 
y ensayos en los que no se presente ni el EC ni el El (no EC-no El) de ma- 
nera que la contingencia sea O (el cálculo de la contingencia se trata más 
en profudidad en el capítulo 3). Si en el procedimiento de control aleatorio 
ocurren por casualidad emparejamientos EC-El al principio de la sesión 
de entrenamiento, se obtiene excitación condicionada del EC, aunque la 
contingencia entre el EC y el El sea 0. Una posible solución a este problema 
es utilizar un procedimiento de control pseudoaleatorio en el que la con- 
tingencia es 0 (no hay relación entre el EC y el El), pero el experimentador 
distribuye los diferentes tipos de ensayos (es decir, ensayos EC-El; EC-no 
El; no EC-El; no EC-no El) de manera equivalente a lo largo de toda la se- 
sión de entrenamiento (por esto no es verdaderamente aleatorio). 
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5. PROCEDIMIENTOS DE CONDICIONAMIENTO PAVLOVIANO 
INHIBITORIO 


Hasta este momento hemos visto ejemplos de condicionamiento ex- 
citatorio en el que el sujeto aprende a predecir cuándo va a aparecer un 
estímulo incondicionado. Pero para un animal, tanto humano como no 
humano, puede ser igual de importante aprender cuándo no se va a pre- 
sentar un estímulo incondicionado. En este caso, el condicionamiento que 
se produce es un condicionamiento inhibitorio. Esto es fácil de entender 
cuando el El es aversivo y el EC nos indica la ausencia del El. En el caso 
del condicionamiento del miedo, un EC excitatorio (por ejemplo, un tono 
que se ha asociado con una descarga) provoca miedo y, en cambio, un EC 
inhibitorio (por ejemplo, una luz asociada a la ausencia de descarga) inhibe 
el miedo, es señal de seguridad y provoca alivio. Pero el condicionamiento 
inhibitorio también se produce en situaciones en las que el El es apetitivo. 
En una situación en la que se utiliza comida como El, un EC excitatorio 
(por ejemplo, un tono asociado con comida) elicita un estado de euforia. En 
cambio, un EC inhibitorio (por ejemplo, una luz asociada con la ausencia 
de comida) puede inhibir dicho estado y causar frustración. Por tanto, la 
excitación y la inhibición son consideradas procesos opuestos y ambas son 
importantes para la adaptación del sujeto al ambiente. 


Un requisito importante para que se desarrolle inhibición condicionada 
es que es necesario un contexto excitatorio (LoLordo y Fairless, 1985). Si 
nos paramos a pensar, es natural que esto sea así, ya que para que se apre- 
cie la ausencia del El es necesario que se presente dicho El en la situación. 
Si no se ha experimentado nunca el El, no se puede echar de menos, es 
decir, no se puede saber que ya no está. 


El condicionamiento inhibitorio fue descubierto también por Pavlov 
(1927) en su laboratorio. Pavlov incidió en la importancia de un contex- 
to excitatorio en el condicionamiento inhibitorio. El procedimiento que 
utilizó se ha convertido en el procedimiento estándar de inhibición 
condicionada y consiste en la presentación de dos tipos de ensayos en- 
tremezclados aleatoriamente en una sesión de entrenamiento, uno para el 
condicionamiento excitatorio y otro para el condicionamiento inhibitorio. 
Es decir, en el tipo de ensayo excitatorio un EC+ es emparejado con un 
EL, y, por otro lado, en el tipo de ensayo inhibitorio el EC+ se presenta 
junto con otro EC- formando un estímulo compuesto, EC+EC-, que no va 
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seguido por el El. Las abreviaturas EC+ y EC- se utilizan para el estímulo 
excitatorio e inhibitorio, respectivamente. Los sujetos aprenden a respon- 
der ante el EC+ cuando se presenta solo y a no responder ante el compuesto 
EC+EC-. Si ponemos a prueba el EC- en solitario observaremos que se ha 
convertido en señal de la ausencia del El, es decir, se ha convertido en un 
estímulo inhibitorio. La Figura 2.8 muestra un esquema de los diferentes 
procedimientos del condicionamiento inhibitorio. 


Otro método para obtener inhibición condicionada es conocido como 
inhibición diferencial. En este procedimiento se presentan ensayos de un 
EC+ seguido del El entremezclados con ensayos de un EC- no seguido del El. 
Los sujetos aprenden a discriminar ambos estímulos y presentan la RC ante 
el EC+, pero no ante el EC-. El EC- se convierte en un estímulo inhibitorio. 


Un tercer procedimiento de condicionamiento inhibitorio consiste en la 
presentación del EC y del El separados por un intervalo de tiempo muy amplio. 
De hecho, el EC y el El nunca se emparejan, por lo que este procedimiento se 
denomina desemparejamiento explícito. El desemparejamiento explícito es 
un caso concreto del procedimiento más general de inhibición condicionada 
por contingencia o correlación negativa. En este procedimiento la correla- 
ción en el tiempo entre el EC y el El es negativa, es decir, es menos probable 
que el El se presente tras el EC que en cualquier otro momento, por lo que el 
EC señala una reducción en la probabilidad de que aparezca el El. 


Se puede desarrollar condicionamiento inhibitorio incluso cuando el 
EC va seguido del El. Si se utiliza un procedimiento de condicionamiento 
de demora, y el EC es de larga duración, es decir, si la demora es larga (por 
ejemplo, 5-10 minutos), con muchos ensayos de condicionamiento el ani- 
mal se comporta como si la parte inicial del EC señalase un periodo de au- 
sencia del El (Rescorla, 1967a). A este procedimiento se le denomina inhi- 
bición de demora. Otro ejemplo se da en el condicionamiento de huella. 
En general, este procedimiento da lugar a un condicionamiento inhibitorio 
cuando el intervalo de huella es de gran tamaño, mientras que si el intervalo 
de huella no es muy grande el condicionamiento será excitatorio, aunque 
también influye en el desarrollo de un tipo u otro de condicionamiento el 
tamaño que tenga el intervalo entre ensayos (véase el capítulo 3). 


Un último método es el condicionamiento hacia atrás. Como hemos 
mencionado más arriba, este procedimiento a veces establece el EC como 
señal de la ausencia del El, es decir, como un inhibidor condicionado. 


71 


PSICOLOGÍA DEL APRENDIZAJE 


Ensayo tipo A Ensayo tipo B 

EC+ IE! EC+ | 

Inhibición 
EC- EC- E! condicionada 
—_——— estandar 
El Mn El 
EC+ | EC- rn 

Inhibición 
El J El diferencial 


Desemparejamiento 


El” 1] Fl J explícito 


A o A a AR 


El Jal Jl Inhibición de demora 
, huella, 
«5 

EC h 


: Condicionamiento 


El ' jan Al de huella 


Condicionamiento 


El n | hacia atrás 


Tiempo 
E o —————————— 


Figura 2.8 Procedimientos típicos del condicionamiento inhibitorio. 


5.1. Medición de la inhibición condicionada 


¿Cómo se puede medir la inhibición condicionada? En el caso de la ex- 
citación condicionada es fácil su medición, se registra la respuesta directa 
ante el EC+, una respuesta que antes del condicionamiento no elicitaba y 
que su naturaleza depende del estímulo incondicionado. Sin embargo, en 
el caso de la inhibición condicionada, en el que se espera que el EC- elicite 
una reacción opuesta a la del EC+, su medición sólo puede ser directa en 
sitemas de conducta bidireccionales; la mayoría de las respuestas que se re- 
gistran habitualmente no son bidireccionales y ha de utilizarse un método 
indirecto para medir la inhibición. 
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5.1.1. Sistemas de respuestas bidireccionales 


Los sistemas de respuestas bidireccionales están formados por res- 
puestas que pueden variar en direcciones opuestas respecto a una línea ba- 
se de ejecución normal. Muchas respuestas fisiológicas son de este tipo. El 
ritmo cardíaco, la temperatura corporal o la respiración, pueden aumentar 
o disminuir respecto a una línea base. Por ejemplo, en un condicionamien- 
to de miedo, el ritmo cardíaco de una rata puede aumentar en presencia 
de un estímulo condicionado excitatorio que le produce miedo (es decir, de 
un tono asociado a una descarga); y puede disminuir cuando se le presenta 
un estímulo condicionado inhibitorio que le produce alivio (es decir, una 
luz asociada a la ausencia de descarga). También hay respuestas motoras 
bidireccionales. Por ejemplo, una paloma puede acercarse a una tecla lu- 
minosa (EC+) que predice la comida y alejarse de otra tecla luminosa (EC-) 
que predice la ausencia de comida (Hearst y Franklin, 1977; Wasserman, 
Franklin y Hearst, 1974). 


Un problema de este método de medición de la inhibición condicionada 
es que no es generalizable a todas las situaciones. Por ejemplo, cuando un 
perro saliva ante un tono sabemos que el tono es un estímulo excitatorio, 
pero la reacción contraria es no salivar y si ante una luz no saliva no sa- 
bemos si es debido a que la luz es un estímulo inhibitorio o, simplemente, 
a que no ha habido condicionamiento y la luz es un estímulo neutro. Por 
esto, es necesario con este tipo de respuestas una medición indirecta de la 
inhibición condicionada. 


5.1.2. Prueba del estímulo compuesto o sumación 


La prueba del estímulo compuesto o prueba de sumación es una 
prueba indirecta de la inhibición condicionada y consiste en la presentación 
conjunta del estímulo inhibitorio junto con un estímulo excitatorio. Si el 
estímulo condicionado es inhibitorio deberá reducir la RC que se da ante el 
estímulo excitatorio porque la inhibición es un proceso de signo contrario 
a la excitación. Para comprobar que efectivamente la RC ante el compuesto 
EC+EC- se ha reducido debe haber un procedimiento de control adecuado 
en el que el estímulo excitatorio se asocie a un estímulo neutro en la fase 
de prueba. Existen varias posibilidades para realizar esto, una de ellas es la 
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que utilizó Hammond (1967) en un estudio de inhibición diferencial de la 
respuesta emocional condicionada (véase Cole, Barnet y Miller, 1997, para 
otro procedimiento de control adecuado de la inhibición condicionada). 
En el experimento, un grupo de ratas (Grupo l) recibió presentaciones de 
un tono (EC+) seguido de una descarga eléctrica y presentaciones de una 
Luz (EC-) no seguido de la descarga, es decir, recibió un entrenamiento de 
inhibición diferencial (de ahí el nombre del grupo, «I» de inhibitorio). El 
grupo de control (Grupo R) recibió también un tono (EC+) seguido de la 
descarga, pero la luz se presentaba de forma aleatoria respecto a la descar- 
ga (de ahí el nombre del grupo, «R» de «random», aleatorio en inglés). La 
presentación aleatoria de los dos estímulos, luz y descarga, impide que se 
establezca una asociación entre ellos. Por tanto, ambos grupos recibieron 
el mismo entrenamiento excitatorio, pero sólo el Grupo I recibió entrena- 
miento inhibitorio de la luz, mientras que en el Grupo R la luz no fue em- 
parejada consistentemente con ningún estímulo. De este modo se controla 
si la diferencia en la respuesta condicionada entre los dos grupos es debida 
a que la luz se ha entrenado inhibitoriamente. 


Tabla 2.2. Diseño del experimento de inhibición diferencial con prueba de 
sumación (Hammond, 1967) 


Grupo Entrenamiento Prueba 
Grupo I T-Descarga, L-No descarga TL 
Grupo R T-Descarga, L/Descarga TL 


T es un tono; L es una luz; la / indica presentaciones aleatorias de la luz y la descarga 
en el Grupo R. 


La prueba de sumación consistió en la presentación conjunta del tono 
(EC+) y la luz (EC-) en ambos grupos. Los resultados se muestran en la 
Figura 2.9. Ambos grupos mostraron una fuerte supresión de la presión de 
la palanca ante el tono (EC+) en solitario durante la fase de entrenamien- 
to. Sin embargo, la RC de supresión disminuyó en la prueba de sumación, 
cuando el tono se presentó junto con la luz (EC+EC-) en ambos grupos, 
pero el Grupo I mostró menos RC que el Grupo R por el entrenamiento 
inhibitorio de la luz (EC-). El grupo de control (Grupo R) permite medir la 
influencia de un estímulo no asociado con el El ni excitatoria ni inhibito- 
riamente en la RC ante el EC+. Como se ve en la Figura 2.9, hay un decre- 
mento en ambos grupos en la respuesta ante el compuesto EC+EC- en la 
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Razón de supresión 


8 9 10 1 2 3 4 E 


Adquisición Prueba de sumación 


Figura 2.9 Razón de supresión media ante el tono (EC+) en la adquisición y ante el 
compuesto tono-luz (EC+EC-) en la prueba de sumación para el grupo en que la luz era un 
estímulo condicionado inhibitorio (Grupo 1) y para el grupo de control aleatorio (Grupo 
R) (Adaptado de Hammond, 1967). 


prueba respecto a la RC ante el EC+ en solitario durante el entrenamiento, 
pero en el caso del Grupo R es debido sólo al decremento de generalización 
de la respuesta por presentar junto al EC+, el tono, un estímulo neutro, la 
luz; mientras que en el Grupo I no sólo hay decremento de la generalización 
sino que se produce una RC significativamente menor ante el compuesto 
EC+EC- que en el Grupo R, por lo que podemos concluir que en el Grupo I 
la luz es un estímulo inhibitorio. 


5.1.3. Prueba del retraso en la adquisición 


Otro método para medir indirectamente la inhibición condicionada es 
la prueba del retraso en la adquisición de una asociación excitatoria del 
estímulo entrenado inhibitoriamente. Un estímulo que se ha convertido 
en inhibitorio necesitará más ensayos de emparejamiento con el El para 
conseguir el mismo grado de excitación que un estímulo neutro. El estímu- 
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lo inhibitorio es un estímulo que predice la ausencia del El y, por tanto, 
para conseguir el mismo grado de condicionamiento necesitará más en- 
trenamiento con el El que un estímulo que no señala nada al principio del 
entrenamiento. En definitiva, la velocidad de adquisición de una respuesta 
excitatoria disminuirá si el EC es inicialmente un inhibidor condicionado. 


En un experimento similar al descrito en el apartado de la prueba de 
sumación, Hammond (1968) utilizó una prueba de retraso de la adquisi- 
ción del miedo condicionado y obtuvo una curva de adquisición más lenta 
del condicionamiento excitatorio de la luz (EC-) en el Grupo I (grupo de 
inhibición condicionada) en comparación con la adquisición obtenida en el 
Grupo R (grupo de control), donde la luz se había presentado aleatoriamen- 
te respecto al El. Se produjo, por tanto, un retraso en el condicionamiento 
excitatorio de la luz en el Grupo l, lo que nos indica que la luz era un estí- 
mulo inhibitorio en dicho grupo. 


Los resultados de la prueba de retraso deben ser considerados con 
precaución porque no sólo la inhibición puede causar retraso en la adqui- 
sición. La preexposición del EC (véase el capítulo 3 para más información 
sobre este efecto), por ejemplo, ralentiza el posterior condicionamiento de 
dicho EC, pero no es un procedimiento de inhibición condicionada ya que 
no hay un contexto excitatorio durante la preexposición y si se presenta el 
EC preexpuesto junto con un EC+ en una prueba de sumación no reduce la 
RC. Por tanto, Rescorla (1969) recomendó la utilización de ambas pruebas, 
la de sumación y la de retraso del condicionamiento excitatorio, para medir 
la inhibición condicionada. 


6. EXTINCIÓN DEL CONDICIONAMIENTO PAVLOVIANO 


Hasta ahora hemos visto cómo se da el aprendizaje cuando se presenta 
un estímulo novedoso seguido del El (condicionamiento excitatorio) y có- 
mo se da cuando se presenta un estímulo novedoso no seguido del El en 
un contexto en que se espera la presencia de este último (condicionamiento 
inhibitorio). Ambos tipos de condicionamientos implican la adquisición y 
mantenimiento de asociaciones y respuestas nuevas. Pero si la conducta 
aprendida es una adaptación al ambiente cambiante, la pérdida de la con- 
ducta condicionada debería ser tan relevante como su adquisición. La ex- 
tinción es un procedimiento en el que ya no se presenta el El tras el EC, es 


82 


CONDICIONAMIENTO CLÁSICO: FUNDAMENTOS 


decir, el EC se presenta solo en repetidas ocasiones, y tiene como resultado 
la disminución o incluso la desaparición de la RC. Se denomina extinción 
tanto el procedimiento como el resultado obtenido. La Figura 2.10 nos 
muestra un ejemplo de una curva de adquisición y otra de extinción. 


1.00 Ed 
Adquisición Extinción 


Proporción de conducta 
o 
un 
=] 


eS 
0 
[9] 


0.00 
12345678910 12345657 


Sesiones 


Figura 2.10 Curva de adquisición y de extinción. Datos hipotéticos. 


La extinción es un proceso distinto a la habituación. La extinción pare- 
ce similar a la habituación ya que ambas provocan una disminución de la 
respuesta debida a la exposición repetida a un estímulo. La principal dife- 
rencia entre los dos procesos estriba en que la extinción es un descenso de 
una respuesta previamente aprendida, mientras que en la habituación no se 
ha aprendido la respuesta anteriormente. La extinción tampoco es olvido. 
El olvido tiene lugar tras la ausencia prolongada de experiencia con el es- 
tímulo condicionado, mientras que la extinción ocurre como consecuencia 
de las presentaciones repetidas del EC en solitario. 


La extinción fue descubierta por Pavlov (1927), quien consideraba que 
durante la extinción el sujeto aprendía una nueva asociación entre el EC y la 
ausencia del El, es decir, creía que se producía una inhibición condicionada. 
Aunque Pavlov definió la extinción como una forma de inhibición condicio- 
nada, sin embargo no lo es, ya que no supera la prueba de la sumación (Re- 
berg, 1972), ni la del retraso del condicionamiento (Napier, Macrae y Kehoe, 
1992) que, como hemos visto más arriba, son necesarias para afirmar que 
el EC es un inhibidor condicionado (EC-). De hecho, cuando se somete a 
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una prueba de sumación a un estímulo extinguido, en lugar de obtener una 
menor RC ante el EC+ junto con el estímulo extinguido, se puede obtener 
incluso una mayor RC (Reberg, 1972). Ocurre algo similar con la prueba 
de retraso del condicionamiento ya que cuando se empareja de nuevo el EC 
extinguido con el El se obtiene a menudo un condicionamiento muy rápido 
(Napier y cols., 1992; pero véase Bouton, 1986, para el resultado contrario). 


6.1. Fenómenos de la extinción 


Hay una serie de fenómenos que muestran que durante la extinción no se 
elimina la asociación establecida durante el condicionamiento entre el EC y 
el El, sino que se establece otra asociación entre el EC y la ausencia del El. 


6.1.1. Desinhibición 


Ya el mismo Pavlov encontró evidencia de que durante la extinción se 
aprendía una asociación distinta y no se eliminaba la asociación excitatoria 
entre el EC y el El. Por ejemplo, el fenómeno denominado desinhibición 
consiste en la presentación de un nuevo estímulo junto con el EC durante la 
fase de extinción, lo que provoca que el sujeto vuelva a ejecutar la RC inme- 
diatamente. Supongamos que un perro recibe una luz seguida de comida du- 
rante la adquisición y sólo la luz en la fase posterior de extinción. Si durante 
esta fase se presenta un nuevo estímulo durante la presentación de la luz, por 
ejemplo, un tono, el perro comienza a salivar en ese momento. Esto demues- 
tra que no se ha erradicado la asociación EC-El, ya que la RC se recupera en 
presencia de un estímulo novedoso, sin necesidad de nuevo entrenamiento. 


6.1.2. Recuperación espontánea 


Otra evidencia, hallada también por Pavlov, que da cuenta de que la aso- 
ciación EC-El no es eliminada durante la fase de extinción es la recupera- 
ción espontánea. Este es un fenómeno que se da si dejamos pasar un tiempo 
sin contacto con el EC y el El tras la fase de extinción y presentamos de 
nuevo el EC: la RC se recobra espontáneamente (aunque habitualmente no 
hasta el nivel de la fase de adquisición). Es decir, se puede recuperar una RC 
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que ha sido extinguida, con el simple paso del tiempo (por ejemplo, Brooks y 
Bouton, 1993; Rescorla, 1997; Robbins, 1990; Rosas y Bouton, 1996). 


6.1.3. Renovación de la RC 


Investigaciones más recientes han encontrado nuevos fenómenos que 
demuestran que no se da un desaprendizaje como resultado de la extin- 
ción. Por ejemplo, el estudio del papel del contexto en la extinción mostró 
el efecto de renovación de la RC. En la Tabla 2.3 podemos ver el diseño de 
un experimento de renovación (Bouton y King, 1983). En la fase de adquisi- 
ción (Fase 1), todas las ratas recibieron emparejamientos de un EC, en este 
caso un tono, y una descarga en un contexto, el Contexto A. Los contextos 
utilizados en este experimento eran cajas de Skinner situadas en distintas 
salas del laboratorio, con diferentes características visuales, tactiles, de olor 
y de tamaño. En la Fase 2 un grupo recibió ensayos de extinción del EC 
(ensayos del tono en solitario) en el mismo contexto (Grupo Ext-A) mien- 
tras que un segundo grupo recibió ensayos de extinción del tono en otro 
contexto, el Contexto B (Grupo Ext-B). Un tercer grupo no recibió extinción 
en la Fase 2 (Grupo NE). Como se puede ver en la Figura 2.11, la supresión 
condicionada fue casi total al comienzo de la fase de extinción (Fase 2), lo 
que muestra que el miedo condicionado en el Contexto A se generalizó al 
Contexto B para el grupo B. A medida que se presentaban los ensayos de 
extinción en ambos grupos, la supresión condicionada (el miedo condi- 
cionado) fue disminuyendo de forma similar para ambos grupos. Hay que 
recordar que la supresión condicionada tiene una escala inversa, es decir, 
una razón de supresión cercana a 0 indica una gran supresión mientras 
que una razón de supresión de 0,5 indica ausencia de supresión. Por tanto, 
la curva de extinción en la supresión condicionada es ascendente, como se 
observa en la parte izquierda de la Figura 2.11. 


Tabla 2.3. Diseño del experimento de renovación de Bouton y King (1983). 


Ext-A A: T-Descarga A: T-No Descarga A: T 
Ext-B A: T-Descarga B: T-No Descarga A: T 
NE A: T-Descarga =— A: T 
A y B son diferentes contextos experimentales; T es un tono (EC); la descarga es el El. 


85 


PSICOLOGÍA DEL APRENDIZAJE 


Razón de supresión 


Extinción Prueba 


Bloques de dos ensayos 


Figura 2.11 Resultados durante la extinción (izquierda) y la prueba (derecha). Se 
produjo renovación de la supresión cuando el EC fue puesto a prueba en el contexto de 
condicionamiento (Contexto A) tras la extinción en el Contexto B (adaptado de Bouton y 

King, 1983). 


Tras la fase de extinción, todos los grupos recibieron una serie de ensa- 
yos de prueba en el Contexto A, el contexto original de condicionamiento. 
Los resultados de estos ensayos de prueba se pueden observar en la parte 
derecha de la Figura 2.11. El Grupo NE, que no recibió extinción, mos- 
tró una supresión prácticamente total durante los ensayos de prueba. El 
Grupo Ext-A no mostró prácticamente ninguna supresión en la prueba, 
lo que indica que cuando se administra entrenamiento y extinción en el 
mismo contexto, los animales siguen mostrando el efecto de la extinción. 
En cambio, el Grupo Ext-B, en el que se cambiaba de contexto durante la 
extinción, mostró una gran supresión condicionada en la prueba. Por tanto, 
se produjo una renovación del miedo condicionado cuando los animales del 
Grupo Ext-B cambiaron de contexto para volver al contexto del aprendiza- 
je original tono-descarga. Esta renovación de la RC de miedo en el Grupo 
Ext-B indica que la pérdida de supresión que se dio durante la fase de ex- 
tinción no es reflejo del desaprendizaje de la asociación EC-El establecida 
en la primera fase. Es decir, la extinción no eliminó el aprendizaje original 
tono-descarga. 
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El efecto de renovación de la RC también se obtiene si el cambio de 
contexto en la prueba es a un contexto distinto al de extinción, sin nece- 
sidad de que vuelva al contexto original de condicionamiento (Bouton y 
Ricker, 1994). Por tanto, los datos obtenidos en éste y en otros experimen- 
tos subsiguientes demuestran que la extinción puede ser relativamente 
específica del contexto en el que se aprende (para una revisión véase 
Bouton, 2004), mientras que la excitación condicionada se generaliza más 
fácilmente a otros contextos, como muestra la supresión casi total que se 
observa en el primer ensayo de la fase de extinción tanto del Grupo Ext-A 
como del Grupo Ext-B del experimento de Bouton y King (1983; véase la 
Figura 2.11). 


Parece que el contexto está actuando como una clave que ayuda a eli- 
minar la ambigúedad del significado de un estímulo condicionado (Bouton, 
1993, 1994). Un EC que adquiere condicionamiento excitatorio y luego se 
extingue puede indicar que va a aparecer el El o que no va a aparecer y, en 
esta situación, el contexto puede ayudar al sujeto a saber qué va a ocurrir, 
como cuando una palabra tiene dos posibles significados y el contexto nos 
indica cuál es el adecuado. El EC se pone bajo control contextual ya que el 
contexto le permite al sujeto saber el significado del EC en ese momento y, 
con ello, adecuar su respuesta a lo que va a a venir. En el caso de la renova- 
ción, cuando el sujeto deja de estar en el contexto de la extinción, es decir, 
cuando se introducen claves de otro contexto distinto al de extinción, se 
recupera la RC excitatoria. 


Siguiendo con la hipótesis, si queremos restaurar la ejecución propia 
de la extinción tendremos que introducir claves contextuales que reactiven 
la memoria de la extinción. Esto se ha puesto a prueba en experimentos 
de recuperación espontánea. Como ya hemos explicado, la recuperación 
espontánea consiste en la recuperación de la RC que se obtiene si se deja 
que transcurra un periodo suficiente de tiempo tras la fase de extinción. Si 
después de esta recuperación espontánea presentamos claves contextua- 
les presentes durante la fase de extinción, el sujeto vuelve a comportarse 
como lo hacía durante la extinción (Brooks, 2000; Brooks y Bouton, 1993; 
Brooks, Palmatier, García y Johnson, 1999). Estos resultados parecen in- 
dicar que la recuperación espontánea puede ser debida a un deterioro de 
las claves contextuales de la extinción que se da con el paso del tiempo 
(Bouton, 1993). 
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6.1.4. Restablecimiento de la excitación condicionada 


El fenómeno conocido como restablecimiento ocurre si el El se pre- 
senta en solitario tras la extinción. Esto hace que vuelva a darse RC ante el 
EC en una prueba posterior (por ejemplo, Bouton y King, 1983; Delamater, 
1997; Rescorla y Heth, 1975), lo que es un ejemplo más de cómo la extin- 
ción del EC no supone la eliminación de la asociación EC-El adquirida 
durante el condicionamiento. Además, la investigación sobre el restableci- 
miento (véanse Bouton, 1993, 1994; Bouton y Nelson, 1998) parece indicar 
que el contexto también juega un papel en este fenómeno en el mismo 
sentido que en la renovación. El contexto, por tanto, estaría suprimiendo 
la ambigúedad del EC. 


7. INCIDENCIA DEL CONDICIONAMIENTO CLÁSICO 


El condicionamiento clásico es uno de los modos en los que el aprendi- 
zaje permite la adaptación al medio. Como mencionamos al principio del ca- 
pítulo, si un animal aprende a predecir un evento significativo será capaz de 
responder ante la señal, antes de que dicho evento significativo ocurra. Hasta 
ahora hemos visto algunos ejemplos de cómo se investiga el condicionamien- 
to clásico en el laboratorio, pero este tipo de aprendizaje ocurre en muchas 
otras situaciones. A continuación mencionaremos algunas de ellas mostran- 
do cómo el condicionamiento clásico ayuda en la adaptación al medio. 


7.1. Territorialidad y reproducción 


La territorialidad en un animal consiste en la defensa de sus recursos 
a través de la agresión. Por otro lado, la reproducción permite al animal 
transmitir sus genes. Ambos comportamientos, por tanto, son fundamen- 
tales para los animales y en ambos interviene el condicionamiento clásico. 


Karen Hollis (por ejemplo, 1990) ha estudiado la territorialidad en un 
tipo de pez, el gurami azul (Trichogaster trichopterus; véase la Figura 2.12), 
nativo del sudeste asiático. Los guramis machos establecen su territorio 
y lo defienden de forma agresiva contra otros machos, pero permiten que 
las hembras entren y depositen sus huevos en los nidos que han hecho los 
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machos dentro del territorio. La investi- 
gación de Hollis nos muestra las ventajas 
del condicionamiento clásico tanto en la 
agresión territorial como en el compor- 
tamiento sexual. En una serie de experi- 
mentos (Hollis, 1984), dos machos eran 
situados en los extremos opuestos de 
un acuario, sin permitirles verse nunca. 
Durante varios días uno de los machos 
recibía ensayos de una luz seguida de la Figura 2.12. Pez gurami azul 
presentación de un macho rival. El ma- e 

cho rival es un estímulo incondicionado 

que provoca una respuesta incondicionada de agresión (pero se evitaba la 
lucha porque a ambos machos les separaba una pared de cristal). La luz se 
convertía en un EC que predecía el macho rival. El macho que se encontra- 
ba en el otro extremo recibía presentaciones explícitamente desempareja- 
das de la luz y del macho rival. Después del entrenamiento la luz provocaba 
una respuesta de agresión condicionada en el primer macho, pero no en el 
segundo. Se realizó otra prueba que consistió en que los machos situados 
en los extremos se vieran por primera vez. Ambos recibieron una presenta- 
ción de la luz justo antes del encuentro. El pez para el que la luz señalaba 
la presencia de otro macho mostró más conductas agresivas que el pez para 
el que la luz no estaba asociada con otro macho. Seguramente, si se les hu- 
biera dejado luchar, el pez para el que la luz era una señal habría ganado. 
Por tanto, poder predecir mediante una señal el acercamiento de un rival 
proporciona ventaja en la lucha y tiene un claro valor para el animal. 


Cuando la que entra en el territorio es una hembra, el comportamiento 
del macho cambia, dejando de comportarse agresivamente y facilitándole 
a la hembra el acceso al nido. Este comportamiento también se puede 
condicionar. Si se introduce una señal de que se va a presentar la hembra, 
el macho dará menos respuestas agresivas y dedicará más tiempo a cor- 
tejar a la hembra (Hollis, Cadieux y Colbert, 1989). Además, los machos 
que anticipan mediante una señal la llegada de la hembra, también pasan 
más tiempo construyendo nidos, desovan antes y producen más crías que 
los machos sin señal de la hembra (Hollis, Pharr, Dumas, Britton y Field, 
1997). Por tanto, el condicionamiento clásico mejora sustancialmente el 
comportamiento sexual del gurami azul y le permite tener más éxito en la 
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reproducción. El comportamiento sexual se ha estudiado en distintas es- 
pecies, como ratas y codornices, obteniéndose resultados similares (véase 
Domjan, 1997; Domjan y Mahometa, 2001). 


7.2. Condicionamiento con drogas 


Las drogas pueden ser poderosos estímulos incondicionados y su con- 
sumo es precedido por claves que se pueden condicionar. En humanos, 
los lugares donde son consumidas, la gente con la que se consumen o los 
estímulos que forman parte de los rituales de consumo pueden convertirse 
en señales de la droga. 


Una característica especial de este tipo de condicionamiento es que la 
respuesta condicionada a menudo es muy diferente de la respuesta incon- 
dicionada. Frecuentemente la RC es la opuesta, y funciona de manera que 
contrarresta el efecto de la droga que se va a presentar (véase Siegel, 1989). 
Esta es una respuesta adaptativa porque una dosis de una droga puede 
causar que un organismo pierda su homeostasis, su equilibrio interno. La 
respuesta condicionada ayuda al organismo a recuperar antes el equilibrio 
al responder ante la señal antes de que se le presente la droga. Por tanto, 
la respuesta ante el EC es una respuesta condicionada compensatoria. 


Estas respuestas compensatorias pueden ser la razón de la tolerancia 
que se produce con un consumo habitual de la droga (Siegel, 1975). Cada 
vez que se toma una droga (por ejemplo, morfina), los efectos de dicha sus- 
tancia pueden ser más fuertemente asociados con las claves ambientales. 
Las claves ambientales se convertirán en estímulos condicionados que pro- 
vocan una respuesta condicionada compensatoria, disminuyendo el efecto 
que tiene la droga y, por tanto, generando tolerancia. 


Si las claves ambientales o contexto de administración de una droga son 
ECs que producen una respuesta condicionada compensatoria que hace 
que el efecto de la droga sea menor a medida que avanza el condiciona- 
miento, retirar dichas claves hará que se recupere la respuesta ante la dro- 
ga, es decir, eliminará la tolerancia adquirida. La investigación realizada 
confirma que la tolerancia puede funcionar de esta manera; si se cambia el 
contexto de administración desaparece la tolerancia y la respuesta vuelve a 
ser como si recibiera la droga por primera vez. Esta pérdida de la tolerancia 
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a la droga por cambios en el contexto de administración se ha observado 
usando morfina (Siegel, 1975), alcohol (p. ej., Crowell, Hinson y Siegel, 
1981), barbitúricos (Hinson, Poulos y Cappell, 1982), anfetaminas (Poulos, 
Wilkinson y Cappell, 1981) y una benzodiazepina (midazolam) (King, Bou- 
ton y Musty, 1987). 


La tolerancia a la droga es claramente adaptativa ya que protege al orga- 
nismo de una sobredosis. Un drogadicto, sin embargo, intenta compensar 
la tolerancia a la droga que su organismo ha generado mediante el aumento 
de la dosis. Si en una siguiente ingesta, con una dosis alta, cambiara el con- 
texto de administración de la droga, no se pondrían en marcha las respues- 
tas condicionadas compensatorias y el individuo sufriría toda la respuesta 
a la droga experimentando una sobredosis y pudiendo llegar a morir. Los 
experimentos realizados con ratas ofrecen evidencia de sobredosis por un 
cambio de contexto de administración de la droga (véanse Melchior, 1990; 
Siegel, Hinson, Krank y McCully, 1982; Vila, 1989). 


El condicionamiento con drogas como EEII nos muestra otro ejemplo 
de cómo el condicionamiento clásico permite al individuo adaptarse mejor 
a su entorno y protegerse de los efectos de las drogas mediante el desarro- 
llo de respuestas condicionadas compensatorias que permiten al individuo 
volver antes a la homeostasis. 
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RESUMEN 


El condicionamiento clásico o pavloviano es el tipo de aprendizaje que se 
produce cuando se presentan dos estímulos con independencia de la conducta 
del sujeto. En un experimento típico, el sujeto recibe presentaciones de un es- 
tímulo neutro (EN) seguido de un estímulo incondicionado (El) que provoca 
una respuesta por sí mismo, es decir, una respuesta incondicionada (RI). Tras 
varios emparejamientos con el El, el EN se convierte en un estímulo condicio- 
nado (EC) capaz de provocar una respuesta condicionada (RC). 


En el este tipo de condicionamiento pueden estar ocurriendo dos tipos de 
asociación: la asociación entre el EC y la RI (asociación E-R) o la asocación 
entre el EC y el El (asociación E-E). Lo más habitual es que se establezca una 
asociación E-E. 


El condicionamiento pavloviano se estudia principalmente en las siguientes 
situaciones: condicionamiento del miedo, condicionamiento palpebral, segui- 
miento del signo y aversión al sabor. En el condicionamiento del miedo se es- 
tablece una asociación EC-El aversivo y la RC que se registra es la paralización 
de la rata que se mide de forma indirecta mediante la razón de supresión que 
compara las presiones de palanca durante el EC con las presiones emitidas du- 
rante el periodo pre-EC. Un valor de 0,5 indica ausencia de condicionamiento, 
mientras que un valor de O indica máximo condicionamiento. 


En el condicionamiento palpebral el animal aprende a parpadear ante un 
EC que le predice un soplo de aire en el ojo (El). La RC de parpadeo es más 
simple que otros tipos de RC y propicia la investigación sobre las bases neuro- 
biológicas de este condicionamiento. 


En el seguimiento del signo el animal aprende a aproximarse y picotear una 
tecla iluminada (EC) que le predice la presentación de comida (El). Por último 
en el aprendizaje de aversión al sabor el animal adquiere aversión a un sabor 
novedoso (EC) que ha ido seguido de un malestar gástrico (ED). Este aprendi- 
zaje es especial porque puede darse en un solo ensayo y aunque transcurran 
horas entre el EC y el El. 


El condicionamiento es excitatorio cuando el EC predice la presencia del 
El. Hay cuatro procedimientos básicos: Condicionamiento de demora, con- 
dicionamiento de huella, condicionamiento simultáneo y condicionamiento 
hacia atrás. El procedimiento que mejor condicionamiento produce es el de 
demora. Para medir la RC se puede registrar su magnitud, su probabilidad de 
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ocurrencia o su latencia de presentación. Por otro lado, debe existir un proce- 
dimiento de control para poder afirmar que la respuesta obtenida es debida 
a la asociación del EC con el El. Para ello se utiliza habitualmente el control 
aleatorio, en el que el EC y el El se presentan aleatoriamente uno del otro. 


El condicionamiento es inhibitorio cuando el EC predice la ausencia del El. 
Para ello debe haber un contexto excitatorio. Existen varios procedimientos: 
Procedimiento estándar de inhibición condicionada, inhibición diferencial, 
desemparejamiento explícito, inhibición de demora, condicionamiento de hue- 
lla y condicionamiento hacia atrás. Para medir la inhibición condicionada se 
utilizan sistemas de respuestas bidireccionales que la miden directamente, o se 
puede medir indirectamente utilizando la prueba de sumación y la de retraso 
del condicionamiento excitatorio. 


La extinción del condicionamiento se da cuando tras el EC ya no se presen- 
ta el El. Existen varios fenómenos que indican que la asociación EC-El no se 
elimina durante la extinción: la desinhibición, la recuperación espontánea, la 
renovación de la RC y el restablecimiento de la excitación condicionada. 


El condicionamento clásico ayuda al animal a proteger mejor su territorio 
porque puede anticipar la llegada de un rival y también es una ventaja para su 
comportamiento sexual ser capaz de predecir la llegada de una hembra. Por 
otro lado, el condicionamiento pavloviano ayuda al organismo a recuperar 
antes la homeostasis perdida como consecuencia de los efectos de las drogas. 
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TÉRMINOS DESTACADOS 


Condicionamiento clásico o pavloviano: Tipo de aprendizaje que se produce 
cuando se presentan dos estímulos con independencia de la conducta del 
sujeto. 


Condicionamiento de demora: Procedimento de condicionamiento clásico en 
el que el EC está presente al menos hasta que aparece el El. 


Condicionamiento excitatorio: Aprendizaje de que el EC va seguido del El. 


Condicionamiento hacia atrás: Procedimiento de condicionamiento clásico 
en el que el El se presenta antes del EC en todos los ensayos. 


Condicionamiento de huella: Procedimiento de condicionamiento clásico en 
el que el El se presenta un tiempo después de que haya terminado el EC. 


Condicionamiento inhibitorio: Aprendizaje de que el EC no va seguido del El. 


Condicionamiento simultáneo: Procedimento de condicionamiento clásico 
en el que el EC y el El se presentan simultáneamente en cada ensayo de 
condicionamiento. 


Control aleatorio: Procedimiento en el que el EC y el El se presentan aleato- 
riamente uno del otro. 


Estímulo condicional o condicionado (EC): Estímulo que inicialmente no 
provoca una respuesta más allá de la de orientación pero que después de su 
presentación junto con el El provocará una respuesta particular. 


Estímulo incondicional (El): estímulo que elicita una respuesta particular sin 
necesidad de entrenamiento previo. 


Intervalo entre ensayos: Periodo de tiempo entre dos ensayos consecutivos. 


Intervalo entre estímulos es el periodo de tiempo que pasa entre la presenta- 
ción del EC y la presentación del El durante un ensayo de condicionamien- 
to clásico. 


Intervalo de huella: Intervalo de tiempo entre el final del EC y el comienzo del 
El en los ensayos de condicionamiento de huella. 


Latencia de la RC: tiempo transcurrido entre el comienzo de un estímulo y la 
respuesta que se da a ese estímulo. 


Magnitud de la RC: medida del tamaño, vigor o extensión de una respuesta. 
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Probabilidad de la RC: probabilidad de que se realice una respuesta. 


Prueba del estímulo compuesto o prueba de sumación: Procedimiento de 
prueba que sirve para identificar un inhibidor condicionado si ese estímulo 
reduce la respuesta elicitada por un estímulo excitatorio. 


Prueba del retraso en la adquisición: Procedimiento de prueba que sirve 
para identificar un inhibidor condicionado si dicho estímulo necesita más 
ensayos para adquirir propiedades excitatorias que un estímulo neutro. 


Pseudocondicionamiento: Incremento de la respuesta que se da por un pro- 
ceso no asociativo. 


REC: abreviatura de respuesta emocional condicionada. 


Respuesta condicional (RC): respuesta que se obtiene ante el EC tras su con- 
dicionamiento. 


Respuesta emocional condicionada o supresión condicionada: supresión 
de una conducta instrumental apetitiva provocada por la presentación de 
un estímulo que se ha asociado con un estímulo aversivo. 


Respuesta incondicional (RI): respuesta que se obtiene tras la presentación 
de un estímulo sin entrenamiento previo. 


Seguimiento del signo o automoldeamiento: Movimiento hacia un estímulo 
que señala la disponibilidad de un El apetitivo y el posible contacto con el 
mismo. 
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CONOCIMIENTOS PREVIOS 


Condicionamiento clásico o pavloviano: Forma básica de aprendizaje descu- 
bierta por Pavlov que se basa en la relación EC-El y en las respuestas dadas 
ante estos estímulos por los sujetos (RC y RI). 


Condicionamiento Excitatorio: Tipo de condicionamiento en el que se da 
una contingencia positiva entre la aparición del EC y la aparición del El. 
La presentación repetida del El tras el EC provoca una RC similar a la RI. 


Condicionamiento Inhibitorio: Tipo de condicionamiento en el que se da una 
contingencia negativa entre la aparición del EC y la aparición del El, por lo 
que el EC no provoca una RC similar a la RI. 


Estímulo Condicionado (EC): Estímulo inicialmente neutro que no provoca 
una respuesta en el sujeto por sí mismo, pero adquiere la capacidad de 
hacerlo al ser asociado con un estímulo incondicionado. 


Estímulo Incondicionado (El): Estímulo que provoca una respuesta en el 
sujeto por sí mismo, sin necesidad de asociación con otro estímulo ni entre- 
namiento previo. 


Respuesta Condicionada (RC): Respuesta que provoca un EC tras ser asocia- 
do a un El y que generalmente es similar a la RI. 


Respuesta Incondicionada (RI): Respuesta que provoca un El, sin necesidad 
de un entrenamiento previo. 


En el capítulo anterior hemos visto algunos tipos de condicionamiento 
(excitatorio e inhibitorio) y una serie de procedimientos a través de los 
cuales podemos medir la Respuesta Condicionada (RC) generada a través 
de dichos entrenamientos. 


Por ejemplo, las fobias, como en el caso del experimento de Watson y 
Rayner (1920) con el pequeño Albert, son un claro ejemplo de condiciona- 
miento pavloviano excitatorio. Como explicamos en el capítulo anterior, 
entre los distintos procedimientos que nos permiten comprobar si un con- 
dicionamiento ha tenido lugar está, por ejemplo, la medida de la respuesta 
de miedo ante un estímulo como una rata blanca. 


La medición de las RCs es importante pero lo es más, si cabe, conocer 
las variables que determinan dicha respuesta. La RC del pequeño Albert no 
sería posiblemente la misma ante una rata blanca que ante cientos de ellas. 


¿Qué determina el aprendizaje de la relación entre un (Estímulo Condi- 
cionado) EC y un El (Estímulo Incondicionado)? ¿Qué variables influyen 
en que la rata blanca (EC) provoque una RC de miedo en Albert? Las carac- 
terísticas de los propios estímulos son determinantes para el aprendizaje, al 
igual que las características de la relación que mantienen entre sí. 


En este capítulo mostraremos cómo el aprendizaje se ve determinado 
por ciertas características estimulares, la experiencia previa y las manipu- 
laciones experimentales. 


1. LAS CARACTERÍSTICAS DE LOS ESTÍMULOS 


El El parece ser el estímulo más importante en el condicionamiento. 
Produce la RI por sí mismo, sin necesidad de asociación con ningún otro 
estímulo. Esto se debe al significado biológico que tiene para nosotros. Los 
El más utilizados en los estudios de laboratorio sobre condicionamiento 


103 


PSICOLOGÍA DEL APRENDIZAJE 


pavloviano son generalmente comida, en el caso del condicionamiento ape- 
titivo, y descargas o malestar estomacal, en el caso de condicionamientos 
aversivos. Tanto la comida como el daño físico son Els muy significativos, 
biológicamente hablando, para cualquier organismo. 


Una rata blanca puede ser un estímulo neutro y potencialmente poco 
peligroso. Pero para alguien sometido a un condicionamiento aversivo, co- 
mo en el caso del pequeño Albert, un estímulo inicialmente neutro puede 
dar lugar a una RC similar a la que el El (ruido fuerte), con el que se ha 
asociado dicho estímulo, provoca por sí mismo. Que el El sea un estímulo 
biológicamente significativo y que el EC sea un estímulo neutro son condi- 
ciones necesarias pero no suficientes para conseguir un buen condiciona- 
miento. Sujetos como Albert, sometidos a algún tipo de condicionamiento 
aversivo, no sentirán el mismo miedo ante ruidos a bajo o a alto volumen, 
o ante sonidos continuados o breves o ante ratas a las que estaba acostum- 
brado previamente. 


Características fundamentales como la intensidad, la novedad, la du- 
ración o la naturaleza de los estímulos pueden, como veremos a continua- 
ción, favorecer o entorpecer el condicionamiento. 


1.1. Intensidad 


Si al pequeño Albert le presentasen una rata muy grande o cientos de 
ratas a la vez posiblemente mostraría después del condicionamiento una 
RC de miedo distinta que al mostrarle una pequeña rata. Del mismo modo, 
no mostrará la misma RI frente a un sonido suave que frente a uno muy 
potente. Un El o un EC intenso tienen como consecuencia, por norma ge- 
neral, una aceleración en el aprendizaje en un procedimiento de condicio- 
namiento y una mayor expresión de la RC. 


Relacionado con el concepto de intensidad está el de saliencia. Un estí- 
mulo saliente es aquel que es más perceptible o significativo que otros para 
ese organismo. Un EC que capta fácilmente la atención es un EC saliente, 
lo que le convierte en propicio para ser utilizado en un procedimiento de 
condicionamiento pavloviano. 


En el caso de los Els, debido a su significación biológica, son intensos 
y salientes por naturaleza (a diferencia de los EC, que inicialmente son es- 
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tímulos neutros). Por ejemplo, un El como la comida no será tan saliente 
para un animal que acaba de comer como para uno que lleva días en ayuno. 
Cuánto más significativo sea un El para un animal, más probabilidades 
habrá de que el aprendizaje se realice de forma más rápida y exitosa. Preci- 
samente por el carácter biológico de los Els, la influencia de las variaciones 
en la intensidad de los mismos en lo que al condicionamiento se refiere 
ha sido ampliamente estudiada. Los estudios concluyen que la RC es más 
fuerte cuando se utilizan Els más salientes (Bevins, McPhee, Rauhut y 
Ayres, 1997; Kamin y Brimer, 1963). 


Intensificar un estímulo puede aumentar la saliencia del mismo, favore- 
ciendo que el animal le preste mayor atención. Por ejemplo, podemos va- 
riar la intensidad de una descarga eléctrica (El) y ver cómo influye esto en 
la producción de la RC. Llevando a cabo esta manipulación experimental, 
Polenchar, Romano, Steinmetz y Patterson (1984) (ver también Annau y 
Kamin, 1961; Morris y Bouton, 2006, para resultados similares) concluye- 
ron, como puede verse en la Figura 3.1, que aquellos animales que recibían 
descargas más débiles que las recibidas previamente (por ejemplo, de un 
miliamperio) mostraban pocos cambios en la amplitud de la RC (movi- 
miento de su pata) durante el entrenamiento, mientras que los que recibían 
descargas más intensas (por ejemplo, 4 miliamperios) veían aumentada 
significativamente la amplitud de dicha RC de flexión de pata. 


AMPLITUD DE LARC 


Figura 3.1. Amplitud de la RC 

(milímetros de movimiento del 

miembro) en grupos con distintas 

intensidades del El (descarga; 

1,2,3 0 4 miliamperios) 

1 2 3 4 5 6 7 (Polenchar, Romano, Steinmetz y 
Sesión de adquisición Patterson, 1984). 
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Además de en las RCs de miedo, como las 
medidas a través de la supresión de la conducta, 
Sentiré un miedo también se perciben cambios en las RC de otro 
menor ante la posible tipo, tanto conductuales cómo fisiológicas, ge- 


icadura de una abeja ; z . 
P J neradas por otros Els que varían en intensidad. 
que ante la de una ser- 


piente venenosa. Entre las primeras encontramos el reflejo 
de parpadeo, los movimientos mandibulares 
en conejos, y las RCs de flexión de pata en gatos (Smith, 1968; Sheafor y 
Gormezano, 1972; Polenchar, Romano, Steinmetz y Patterson, 1984, res- 
pectivamente). Como ejemplos de reacciones fisiológicas que varían debido 
a la intensidad del El utilizado tenemos la salivación, la tasa cardiaca, y los 
cambios glucémicos (Wagner, Sieguel, Thomas y Ellison, 1964; Fitzgerald 
y Teyler; 1970; Woods y Shogren, 1972, respectivamente). 


Ejemplo 


La utilización en el condicionamiento de Els de distinta intensidad no 
sólo puede hacer que la amplitud de la respuesta sea distinta, esto es, que 
aumente o disminuya, sino que puede hacer que la respuesta dada por el 
animal varíe en su forma. Holland (1979) descubrió que al aumentar la 
cantidad de comida suministrada a un grupo de ratas no sólo aumentaba la 
intensidad de sus respuestas relacionadas con la obtención de comida sino 
que dedicaban más tiempo a éstas y menos a respuestas de otro tipo, como 
las respuestas de orientación. 


Es de suponer que si el aumento en la intensidad de un El tiene tan 
claras consecuencias a nivel de la amplitud o la variación de la respuesta, 
hacer que un El sea más intenso presentando dos El simultáneamente 
debería tener las mismas o similares. Efectivamente, según estudios como 
los llevados a cabo con conejos por Frey, Maisiak y Duque (1976), si se 
utilizan dos Els aversivos simultáneos (una descarga eléctrica en la man- 
díbula del animal y una estimulación cerebral intracraneal aversiva) tras 
un EC (auditivo en este caso), tiene lugar un condicionamiento más fuerte 
ante dicho EC, lo que tiene como consecuencia una RC de parpadeo más 
intensa. 


Aunque, de forma general, la intensificación de los estímulos se traduce 
en un aumento de la RC, puede que el condicionamiento llegue a su máximo 
nivel independientemente de la intensidad de los mismos. Es decir, a partir 
de cierta intensidad o saliencia no hay variación en el condicionamiento ni 
en la expresión de la RC (que puede haber llegado a su nivel máximo). 
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1.2. Novedad 


Una variable relacionada con la intensidad o la saliencia de los estímu- 
los es la novedad. La variación en la intensidad o la presencia de estímulos 
muy intensos puede resultar novedosa para el animal. Por eso, la novedad 
puede ser responsable en cierta medida de los efectos de la intensidad de 
los estímulos en el condicionamiento clásico (Kalat, 1974). 


La novedad, por sí misma, sin estar relacionada con la intensidad de los 
estímulos, es una variable importante a tener en cuenta de cara a conseguir 
un buen condicionamiento. Los estímulos novedosos suscitan reacciones 
más intensas que aquellos a los que ya estamos habituados. El efecto de la 
ausencia de novedad de los estímulos puede comprobarse en el efecto de 
preexposición. Preexponer un estímulo implica presentarlo repetidamente 
en solitario antes de que tenga lugar el condicionamiento EC-El, de esta 
forma el estímulo deja de ser novedoso (ver Tabla 3.1). 


Tabla 3.1. Diseño experimental del efecto de preexposición 


Fase 1 Fase 2 Prueba RC 

Preexposición al EC EC EC-El ¿EC? oca ES menso S5l 
condicionamiento) 

Preexposición al El El EC-El ¿EC? ESA ao ale! LA 
condicionamiento) 


Dependiendo que cuál de los dos estímulos implicados en el condiciona- 
miento pavloviano sea el preexpuesto tenemos dos tipos de efectos: 


Preexposición al EC o “Inhibición latente”: 


Los estudios más relevantes sobre la influencia de la novedad del EC en 
lo que al condicionamiento y a la expresión de la RC se refiere (Hall, 1991; 
Lubow, 1989; Lubow y Gewirtz, 1995; para las implicaciones en psicopa- 
tología, véanse Lubow, 1989; Oberling, Gosselin y Miller, 1997), muestran 
que cuando un EC es preexpuesto, es decir, aparece repetidamente en au- 
sencia del El, esto retrasa la adquisición de la asociación EC-El posterior, 
dificultando así el condicionamiento. 
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El efecto de preexposición al EC tiene carac- 
terísticas similares al efecto de habituación. En 

Preexposición al ambos efectos la falta de novedad hace que se 
EC. Toda mi vida he preste menos atención a aquellos estímulos que 
podido comer kiwi de : ; ] . 

no predicen ninguna consecuencia relevante. Si 

forma normal porque il sd : 
A ido Un estímu o no es seguido por ninguna conse- 
mal. De repente, un día, cuencia significativa, ni positiva ni negativa, y 
me como un kiwi y ho- no provoca en nosotros ninguna RC, dejaremos 
ras después tengo dolor de prestarle atención ya que, probablemente, 
de estómago. Me cuesta no será importante para nuestra supervivencia. 
asociar más ese dolor de AS 

E Ñ Por eso, la inhibición latente, como afirmaron 
estómago a la ingesta Ñ 
del kiwi porque éste no Lubow y Gewirtz (1995) «promueve la selec- 
me había producido ma- ción de los estímulos necesaria para el apren- 
lestar con anterioridad. dizaje rápido». 


Ejemplo 


A pesar de sus similitudes con la habitua- 
ción, debemos aclarar que ambos efectos no son lo mismo. La habituación 
es una disminución en respuestas como la de orientación o sobresalto mien- 
tras que la inhibición latente supone el retraso de un aprendizaje posterior 
(Hall y Schachtman, 1987). Debemos aclarar también que, a pesar de que se 
lo denomine «inhibición latente» (además de preexposición al EC), no impli- 
ca que el EC se haya convertido en un inhibidor condicionado (Reiss y Wag- 
ner, 1972; Rescorla, 1971). Si el EC se convirtiera en un inhibidor durante la 
fase de preexposición esto debería hacer más fácil utilizarlo posteriormente 
como EC en un condicionamiento inhibitorio además de provocar una RC 
inhibitoria en un procedimiento de sumación, lo que en realidad no ocurre. 


Preexposición al El: 


Cuando el El se presenta repetidas veces, sin asociación previa con el 
EC, deja de ser novedoso. Si posteriormente intentamos que el animal o la 
persona aprenda una asociación entre dicho El y un EC inicialmente neutro, 
el aprendizaje se verá dificultado (Randich, 1981; Randich y LoLordo, 1979; 
Riley y Simpson, 2001; Salandin, ten Have, Saper, Labinsky y Tait, 1989). 


¿Por qué el efecto de preexposición dificulta el condicionamiento 
posterior? La explicación más sencilla podría tener en su base filogené- 
tica la pérdida de la atención a los estímulos no relevantes para nuestra 
supervivencia diaria. Que el efecto que producen ciertos eventos que se 


108 


MECANISMOS ASOCIATIVOS Y TEORÍAS DEL CONOCIMIENTO CLÁSICO 


repiten muy frecuentemente se vea reducido 
se ha seleccionado como mecanismo de apren- 
dizaje por su valor adaptativo. Probablemente 
por cuestiones de economía conductual o de 
interrupción de otras actividades que puedan 
ser relevantes para la supervivencia del sujeto. 


Cuando un estímulo no predice consecuen- 
cias importantes para nosotros dejamos de 
prestarle atención para centrar nuestros re- 
cursos atencionales en otros estímulos poten- 


Ejemplo 


Preexposición al El. 
Con cierta periodicidad 
me duele el estómago 
sin razón aparente. Hoy 
he comido kiwi y des- 
pués ha comenzado a 
dolerme el estómago. 
Dado que el kiwi nun- 
ca me había producido 
dolor, me costará más 


aprender que mi dolor 
de estómago se debe al 
kiwi porque éste ya se 
daba con anterioridad. 


cialmente relevantes, ya sea porque predicen 
un peligro o porque indican la posibilidad de 
obtener alimento. 


Pero, además de esta explicación atencio- 

nal, otros mecanismos asociativos y de memoria parecen estar en la base 
del efecto de preexposición (Hall, 1991). Dichos mecanismos tienen como 
origen el efecto de interferencia (Lubow, Weiner y Schnur, 1981; McPhee, 
Rauhut y Ayers, 2001; Riley y Simpson, 2001), ya sea asociativa o de me- 
moria. Según la perspectiva de la interferencia asociativa, si el EC o el El 
son expuestos previamente, la capacidad asociativa de dichos estímulos 
disminuirá de cara a emparejarse con estímulos nuevos. 


En el caso de la hipótesis de la interferencia de memoria en referencia 
al enlentecimiento del condicionamiento una vez preexpuesto el estímulo, 
el recuerdo de lo ocurrido durante la fase de preexposición interfiere sobre 
el aprendizaje de la asociación EC-El. La existencia de este mecanismo sub- 
yacente en los efectos de preexposición se ve avalado por experimentos que 
muestran que los procedimientos que reducen dicha interferencia ayudan a 
fortalecer la RC (Graham, Barnet, Gunther y Miller, 1994; Rosas y Bouton, 
1997; Westbrook, Jones, Bailey y Harris, 2000). 


1.3. Naturaleza 


La naturaleza de los estímulos es una característica fundamental en el 
condicionamiento pavloviano. Hablar de la naturaleza de los estímulos im- 
plica una serie de subcaracterísticas tales como su tipo, apetitivo o aversivo, 
su relevancia para ese organismo en particular o la importancia biológica. 
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1.3.1. Tipos de estímulo 


El tipo de estímulo utilizado va a determinar el condicionamiento y la 
RC que va a tener lugar. Teniendo en cuenta que el condicionamiento pa- 
vloviano contribuye a una mejor adaptación al entorno permitiendo prede- 
cir los acontecimientos que van a suceder, que la RC se parezca a la RI, es 
decir, que la RC esté en función del El utilizado es más adaptativo que si no 
lo fuera. El condicionamiento y la RC no serán los mismos si el El utilizado 
es apetitivo, como un alimento, o aversivo, como una descarga o cualquier 
otra fuente de dolor. Un animal no mostrará salivación como RC (ni como 
R]) si utilizamos una descarga como El, ni adquirirá un condicionamiento 
de miedo si utilizamos un El apetitivo, como la comida. 


Un ejemplo claro de la importancia del tipo de El utilizado en el condi- 
cionamiento pavloviano es el experimento de automoldeamiento llevado a 
cabo por Jenkins y Moore (1973). En este experimento, dos grupos de palo- 
mas fueron expuestas a un condicionamiento pavloviano en el que el EC era 
una tecla iluminada. Entre ambos grupos variaba el El al que podían tener 
acceso, siendo comida para uno de los grupos y agua para otro. La RC es- 
perada, es decir, el picoteo de la tecla iluminada, fue la obtenida, pero varió 
en su forma dependiendo del El utilizado. Aquellos animales que recibieron 
agua como El picoteaban la tecla de forma continua y lenta, mientras que 
los que recibieron comida lo hacían de forma más vigorosa. La forma en 
que colocaban sus picos también dependía del El utilizado. En el caso del 
agua, las palomas abrían sus picos de la misma forma que si fuesen a sorber 
y tragar agua. En el caso de utilizar comida, la apertura de dichos picos a 

la hora de picotear la tecla era mayor, como al 
Ejemplo ingerir alimento (ver también Woodruff y Starr, 
Me duele un pié des- 1978, para un experimento similar). 


ce eS eS Aunque parece evidente que el tipo de El 
sé por qué. Repaso lo 


que he hecho durante el utilizado es importante para el condiciona- 
día que me haya podido Miento y la obtención de la RC esperada, pa- 
producir el dolor y veo rece menos evidente la importancia del tipo de 
que me he dado un golpe EC utilizado, dado que se trata de un estímulo 
y que he comido kiwis. inicialmente neutro que no produce una res- 
Deduzco que es más pro- AE ] 
bable que me duela dl puesta por sí mismo. Ya que el EC funciona co- 
pie a causa del golpe. mo señal anticipatoria de un futuro El, parece 
factible pensar que cualquier estímulo puede 
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funcionar bien como EC, independientemente de su naturaleza sensorial. 
Pero en realidad la modalidad sensorial del EC determina en gran medida 
la forma de la RC. Distintos ECs pueden producir distintos tipos de RCs. 


Holland (1977) reflejó la importancia de la naturaleza del EC en la ex- 
presión de la RC, utilizando dos ECs de naturaleza distinta para llevar a 
cabo un condicionamiento apetitivo en ratas. Utilizó dos grupos de ratas, 
presentando como EC en uno de ellos un tono y en el otro una luz, cada 
uno seguido de comida en cada ensayo de condicionamiento. La forma de 
la RC varió según el EC utilizado: aquellas ratas que fueron expuestas a un 
tono mostraron movimientos de cabeza mientras que aquellas que fueron 
expuestas a una luz mostraron conductas como ponerse de pie. 


Como mostró Holland (1977), la modalidad sensorial del EC es impor- 
tante, pero también lo es la capacidad sensorial que los animales tienen 
para reaccionar ante dichos eventos. No todos los animales procesan los 
estímulos de igual forma. Algunas características de dichos EC, como la 
luz, el color o la posición, son más fácilmente procesadas por ciertas espe- 
cies animales. 


Bowe, Green y Miller (1987), 120 
pusieron a prueba la capaci- 
dad de procesamiento de las 
palomas en lo que a ciertas ca- 
racterísticas de un EC visual se 
refiere. Estos autores utilizaron 
dos grupos de palomas, para 
uno de ellos el EC era una luz de 
un color y para el otro, la posi- 
ción del mismo EC. En el primer 
grupo, una luz roja anticipaba la 
posterior aparición de comida, 20 
independientemente del lugar 
en el que apareciese dicha luz, 0 
mientras que en el segundo, la 
posición del estímulo luminoso 
(en este caso situado a la iz- Figura 3.2. Porcentaje medio de respuestas 
quierda) precedía a la comida, correctas en función de las sesiones (Bowe, 
independientemente del color de a A 
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dicho estímulo. Como muestra la Figura 3.2, las palomas del grupo en el que 
el color actuó como EC fueron más eficientes al llevar a cabo la RC (tienen 
un porcentaje mayor de aciertos) que las que debían actuar según la posición 
del estímulo. Esto nos permite concluir que las palomas procesan mejor, o 
prestan más atención a los colores que a la localización espacial del EC. 


1.3.2. Relevancia de los estímulos 


La naturaleza de un EC nos lleva a un concepto más importante si cabe: 
la relevancia. La relevancia de un EC se mide según su pertinencia con 
respecto al El. El condicionamiento es mejor si el EC y el El guardan una 
relación en un contexto natural. 


Garcia y Koelling (1966) lo dejaron claro en un experimento ya clásico 
sobre relevancia, en el que mostraron que ECs frecuentemente utilizados 
en experimentos de aprendizaje eran relevantes con respecto a ciertos Els. 
Para ello utilizaron como ECs sabores y estímulos audiovisuales, y como 
Els una descarga eléctrica y malestar estomacal. El diseño experimental del 
estudio puede verse en la Tabla 3.2: 


Tabla 3.2. Diseño experimental utilizado por García y Koelling (1966) 


Condicionamiento Prueba RC 
. eo ¿Gustativo? Poca RC 
Ñ ¿ 
Grupo 1 Gustativo + Audiovisual - Descarga to msuale Mucha RC 
: bn ¿Gustativo? Mucha RC 
- ¿ 
Grupo 2 Gustativo + Audiovisual - Malestar eAudiovisual? Poca RC 


El objetivo principal del experimento era ver cuáles de los ECs (sabor 
o estímulos audiovisuales) eran más susceptibles de condicionarse con los 
diversos Els. Para ello, García y Koelling combinaron esos ECs y Els de la 
siguiente forma: requerían que las ratas bebiesen agua con sabor dulce o 
salado de forma previa a la aparición de un El (EC gustativo), y al mismo 
tiempo se les mostraba un estímulo audiovisual (EC audiovisual). Tras la 
presentación simultánea de estos ECs, se les administraba como El, o bien, 
una breve descarga, o bien, se les provocaba un malestar estomacal. Debido 
al carácter aversivo de los Els, se esperaba que los animales mostraran al- 
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gún tipo de aversión ante los ECs, cosa que se vio reflejada en la respuesta 
de las ratas ante los mismos. 


Tras el condicionamiento, se realizaron pruebas con el EC gustativo 
(sabor) y con el EC audiovisual por separado. El grado de aversión condi- 
cionada se medía utilizando como variable la supresión del lameteo. Los 
resultados, que pueden apreciarse en la Figura 3.3, muestran que los ani- 
males que fueron expuestos a la descarga suprimieron más su respuesta de 
lamer ante un estímulo audiovisual que ante uno gustativo, mientras que 
aquellos que fueron expuestos a un malestar gástrico suprimieron más su 
respuesta de lamer ante un estímulo gustativo que ante uno audiovisual. 


Gustativo E3 Audiovisual 


77] 


N 


Lametones por minuto 


Malestar Descarga 
Estimulo incondicionado 


Figura 3.3. Resultados del experimento de García y Koelling (1966) 


La explicación principal dada por estos autores a los resultados de su 
experimento fue que en un contexto real, los animales pueden enfermar, o 
sentir malestar, cuando comen un alimento en mal estado. De ahí que el 
condicionamiento entre un sabor y un malestar genere una RC de aversión 
mayor. Por otro lado, en dicho contexto natural, es más fácil que un animal 
sufra algún daño físico (como el generado por una descarga), provocado 
por el ataque de un depredador, por ejemplo, ante ciertos estímulos visua- 
les o auditivos, quizá procedentes del propio depredador. 


Este experimento muestra la importancia del concepto de relevancia 
o pertinencia del EC con respecto al El, ya que el aprendizaje de ciertas 
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asociaciones (sabor-malestar, estímulo audiovisual-descarga), se ve favore- 
cido si el EC es pertinente con respecto al El. Ninguno de los ECs fue más 
efectivo que el otro en los condicionamientos en general, sólo con aquel El 
con el que por cuestiones ambientales se combinaba mejor. Este efecto de 
relevancia EC-El fue posteriormente confirmado por otros autores (Garb y 
Stunkard, 1974; Gemberling y Domjan, 1982; Logue, Ophir y Strauss, 1981; 
Pelchat y Rozin, 1982). 


Otra serie de experimentos sobre relevancia o pertinencia dignos de 
mención son los llevados a cabo por LoLordo y sus colaboradores con palo- 
mas (Kelly, 1986; LoLordo, Jacobs y Foree, 1982; Shapiro, Jacobs y LoLor- 
do, 1980; Shapiro y LoLordo, 1982). Estos experimentos concluyeron que 
las palomas asocian Els alimenticios más fácilmente con estímulos (ECs) 
visuales que auditivos, mientras que asocian Els aversivos (descargas) más 
fácilmente a ECs auditivos. Esto indica que, al menos para las palomas, las 
claves visuales son más relevantes para la obtención de comida mientras 
que las auditivas lo son para las conductas defensivas. 


La investigación en humanos sobre relevancia del EC con respecto al El 
también muestra una preferencia estimular con respecto a un El aversivo. 
Por ejemplo, es más fácil que los humanos asocien fotografías como EC 
con una descarga (El) si dichas fotografías son de animales que no si son 
de flores (Ohman, Dimberg y Óst, 1985). 


La explicación teórica para todos estos ejemplos de preferencia esti- 
mular, es decir, de relevancia o pertinencia del EC con respecto a un El, 
se centra en que el EC provoca la activación de cierto tipo de conductas 
o ciertos sistemas de conductas. El sistema de conducta que se activa 
depende del estado motivacional del animal y la naturaleza del El. Si el 
El es comida, el EC activa la producción de conductas relacionadas con 
la búsqueda de la misma, mientras que ECs como descargas desencade- 
nan conductas defensivas similares a las mostradas en presencia de un 
depredador. 


1.3.3. La fuerza biológica 
Al hablar de los Els, de su naturaleza y su pertinencia, es inevitable 


pensar en su carácter biológico. Los Els apetitivos, como el alimento, eli- 
citan ciertas respuestas propias de las conductas de búsqueda de alimento 
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del animal: aproximación, ingesta, masticación, salivación... Este carácter 
biológico no es atribuible a la mayoría de los ECs. Un EC neutro, como un 
tono o una luz, no tiene un carácter biológico como el de la comida, no 
provoca respuestas directamente relacionadas con sistemas de conducta 
como el alimenticio. 


La diferencia entre la fuerza biológica de un EC y un El es la que llevó a 
afirmar a Pavlov (1927) que para que el condicionamiento tuviera lugar, el 
EC debía tener menos fuerza biológica que el El y, por lo tanto, las respues- 
tas elicitadas por el estímulo a condicionar debían ser menores o menos 
intensas que las RI provocadas por el El. 


Sin embargo, las investigaciones actuales muestran que, además de con 
un El de mayor fuerza biológica que su EC, el condicionamiento puede darse 
con estímulos de igual fuerza biológica o incluso sin fuerza biológica alguna. 


A. Condicionamiento de dos estímulos con distinta fuerza biológi- 
ca: condicionamiento de segundo orden. 


En los procedimientos vistos hasta ahora el condicionamiento 
tenía lugar emparejando un EC con un El, pero también es posible 
condicionar un EC con otro EC que haya sido previamente condicio- 
nado. ¿Qué papel juega aquí la fuerza biológica? Un EC inicialmente 
neutro que ha sido expuesto a un condicionamiento con un El puede, 
a su vez, hacer las veces de El para un nuevo condicionamiento, ya 
que ha adquirido una fuerza biológica que no tenía antes. Este efecto 
resultante se conoce como condicionamiento de segundo orden 
(ver Tabla 3.3). 


Tabla 3.3. Diseño experimental del condicionamiento de segundo orden, 
el contracondicionamiento y el precondicionamiento sensorial 


Fase 1 Fase 2 Prueba RC 
Condicionamiento de segundo orden — EC,-El | EC,- EC, ¿EC,? Mucha RC 
Contracondicionamiento EC-El, EC-El, ¿EC? Cambio de RC 
Precondicionamiento sensorial EC,-EC, | EC;,-El ¿EC)? Mucha RC 


El condicionamiento de segundo orden es un tipo de condi- 
cionamiento de orden superior. El condicionamiento de orden 
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superior (ver Figura 3.4) puede tener, como 
su propio nombre indica, distintos niveles. El 
Condicionamiento aprendizaje más básico, EC-El, corresponde- 
de segundo orden. El ría a un condicionamiento de primer orden. 
kiwi me produce dolor a p : 
y Como se describe en el párrafo anterior, un 
de estómago. Hoy me eN . 
id a condicionamiento de segundo orden es aquel 
na antes de comer el en el que se aprenden dos asociaciones que 
kiwi. No sé cómo, pero- comparten un elemento común, un estímulo 
la manzana también ha que toma el papel de EC en una asociación y 
terminado sentándome posteriormente de El en la segunda. Si, por 
mal. . ] : . 
ejemplo, un sonido, que ya ha sido asociado a 
su vez con un EC condicionado que actúa co- 
mo El, se utiliza a su vez como El en el aprendizaje de una nueva 
asociación EC-El, estaríamos hablando de un condicionamiento de 
tercer orden. Y así sucesivamente. 


Ejemplo 


En la vida diaria abundan los ejemplos de condicionamiento de orden 
superior. Uno de los más destacados es, por ejemplo, el dinero: un estímulo 
inicialmente neutro (papel) se asocia con la posibilidad de adquirir bienes. 
A su vez, el dinero, una vez adquirida su fuerza biológica por asociación 
con el El, puede actuar como El frente a un EC inicialmente neutro, como 
un cajero automático o una tarjeta de crédito. 


HE » El HE » EC, 


Figura 3.4. Procedimiento de orden superior, concretamente, de segundo orden. 


El condicionamiento de orden superior es coherente con la hipótesis de 
Pavlov según la cual el condicionamiento tiene lugar cuando se empareja 
un estímulo sin fuerza biológica con uno con fuerza biológica. Además, este 
efecto muestra que el condicionamiento clásico puede tener lugar sin un El 
básico, sólo con estímulos condicionados previamente. 
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B. Condicionamiento de dos estímulos 


con fuerza biológica: contracondicio- 
namiento. Contracondiciona- 
miento. A los niños la 

Pavlov afirmaba inicialmente que un consulta del dentista les 


estímulo que ya tiene fuerza biológica produce ansiedad. Pero 
no puede servir como EC para un nuevo Si el a les regala 
de A A A Mens 

condicionamiento. Por ejemplo, si una “""aptrueta, la experie 
ta abi sd 1 aRA cia de ir a consulta les 

rata había asocia o una uz con una des- HN 

carga, ya no se podía asociar la misma 

luz con comida. 


Ejemplo 


El fenómeno de contracondicionamiento (Pavlov, 1927) mues- 
tra que esta idea es errónea. Como se puede ver en la Tabla 3.3, un 
EC que se ha emparejado con un El puede emparejarse con un El 
diferente e incluso opuesto. Por ejemplo, si un EC se asocia con un 
El aversivo, puede asociarse después con un El apetitivo. 


En el laboratorio, son numerosos los ejemplos de condiciona- 
miento con ECs de gran fuerza biológica. Pearce y Dickinson (1975) 
mostraron cómo se pueden invertir las propiedades aversivas de 
una breve descarga emparejando dicha descarga con comida. Ini- 
cialmente, las ratas del grupo experimental recibieron una descarga 
periódicamente, pero tras la administración de cada descarga reci- 
bían comida. En diferentes grupos de control, las ratas recibieron 
las descargas y la comida de forma desemparejada, o recibieron 
sólo uno u otro de los Els. En un condicionamiento posterior con la 
descarga, el grupo que había recibido la descarga emparejada con la 
comida mostró menos miedo que los grupos control. Este resultado 
indica que el procedimiento de contracondicionamiento redujo las 
propiedades aversivas de la descarga (para otros ejemplos de contra- 
condicionamiento, véase Dickinson y Dearing, 1979). 


El contracondicionamiento no sólo puede variar completamente la 
RC que tiene lugar (por ejemplo, del miedo a la salivación) sino que 
también puede variar una respuesta bidireccional de un extremo al 
otro. Por ejemplo, conseguir que un estímulo que inicialmente pro- 
voca un acercamiento suscite después una respuesta de alejamiento. 


El contracondicionamiento está en la base de muchas terapias 
de conducta, pero la nueva asociación aprendida no borra del todo 
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Ejemplo 


Precondicionamien- 


el aprendizaje original, por lo que la RC inicial puede reaparecer un 
tiempo después o en un contexto distinto (como puede verse en fe- 
nómenos como la recuperación espontánea o la renovación vistos en 
el capítulo anterior). Por ello, el contracondicionamiento es un buen 
método en el tratamiento de trastornos como las fobias, teniendo en 
cuenta estas limitaciones. 


Condicionamiento de dos estímulos sin fuerza biológica: pre- 
condicionamiento sensorial. 


Como hemos visto, el contracondicionamiento nos muestra que el 
condicionamiento puede tener lugar entre dos estímulos de gran fuer- 
za biológica, dos estímulos que provocan respuestas intensas. También 
se puede dar aprendizaje entre dos estímulos sin fuerza biológica, que 
a priori no provocan respuestas intensas, como en el caso del fenóme- 
no de precondicionamiento sensorial (véase diseño en Tabla 3.3). 


Si queremos, por ejemplo, que un animal aprenda la relación en- 
tre dos estímulos neutros, un tono (EC,) y una luz (EC), el principal 
problema con el que nos podemos encontrar es la ausencia de una 
RC medible. Esto es, generalmente, un animal no muestra una RC 
ante estímulos neutros. ¿De qué forma sabemos si el aprendizaje de 
la asociación ha tenido lugar si no podemos medirlo? Para ello, en 
la segunda fase del procedimiento, se empareja el EC, con un El, 
aversivo o apetitivo, para que dé lugar a una RC. De esta forma, si 
el aprendizaje EC,-EC, ha tenido lugar, el EC, 
provocará una respuesta similar a la mostrada 
por EC, tras su emparejamiento con el El (Be- 
rridge y Shulkin, 1989; Lavin, 1976; Rescorla 


to sensorial. Suelo to- 
mar arroz con leche con 
canela de postre. He to- 
mado arroz con leche 
(sin canela) y me ha 
producido un malestar. 
Ahora, cuando veo la ca- 
nela, evito tomarla por 
si me produce también 
malestar cómo lo hace 
el arroz con leche. 
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y Durlach, 1981; Ward-Robinson y Hall, 1996, 
1998). 


La diferencia de fuerza biológica entre el 
EC y el El, como afirmó Pavlov, ayuda a un co- 
rrecto condicionamiento, pero también es una 
forma de medir el aprendizaje, especialmente 
cuando medimos RCs que no son fácilmente 
observables. La presencia de un El con fuerza 
biológica es necesaria para que se haga eviden- 
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te el aprendizaje que se ha dado, pero no para su adquisición. El 
precondicionamiento sensorial es, por tanto, un ejemplo más de que 
aprendizaje y ejecución son procesos distintos. 


1.4. Contigúidad temporal entre estímulos 


Además de las características del EC y el El como estímulos independien- 
tes, cómo se ha visto en el capítulo anterior en relación a los procedimien- 
tos de condicionamiento pavloviano excitatorio, la relación temporal entre 
ambos puede favorecer o perjudicar el aprendizaje de la asociación entre los 
mismos y, por lo tanto, influir en la aparición e intensidad de la RC. 


Las variables temporales a destacar son dos: 


1. Intervalo EC-El: Las investigaciones muestran que, generalmente, 
la RC es más débil cuando el intervalo EC-El es mayor (Marlin, 
1981). Además, dicho intervalo puede afectar a la forma de la RC. 
Holland (1980) mostró que cuando el intervalo EC-El es corto se dan 
más conductas de orientación hacia el EC, mientras que si es largo, 
las conductas más probables son las de orientación al El (por ejem- 
plo, acercamiento al comedero). 


2. Intervalo entre ensayos (IEE): El condicionamiento es mejor (y por 
tanto también la expresión de la RC) cuando los ensayos EC-El están 
distanciados entre sí. 


La relación entre la duración de cada ensayo y la distancia entre los 
mismos es del mismo modo importante para el aprendizaje correcto de la 
asociación EC-El. Las mejores condiciones para un condicionamiento ex- 
citatorio se dan con intervalos EC-El cortos y aislados en el tiempo (amplio 
TEE). Aún así, el condicionamiento puede tener lugar de forma óptima con 
intervalos EC-El mayores siempre y cuando el TEE se alargue de forma 
proporcional (Kaplan, 1984). 


2, ¿CÓMO SE ASOCIAN EL EC Y EL El? 
Tradicionalmente se pensaba que lo más importante para un buen con- 


dicionamiento y, por lo tanto, para la obtención de la RC esperada, era el 
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emparejamiento repetido de la asociación EC-El (Pavlov, 1927). Aunque 
esto es condición imprescindible, no es suficiente para un buen condicio- 
namiento. Se debe cumplir también la siguiente condición: el EC debe ser 
un buen predictor del El. 


2.1. El concepto de contingencia 


En 1968, Rescorla descubrió que el mero emparejamiento de un EC 
(por ejemplo, una luz) y un El (por ejemplo, una descarga) no siempre da 
lugar a condicionamiento. 


Para medir el grado en que una clave o estímulo, el EC, es un buen 
predictor de la aparición de otro estímulo, el El, se utiliza el concepto de 
contingencia (Allan, 1980; Jenkins y Ward, 1965). 


Las posibles alternativas de emparejamiento de un EC con un El en un 
ensayo de condicionamiento concreto no se limitan a la aparición de ambos 
estímulos. Por ejemplo, en fenómenos como la extinción, la aparición del 
EC va seguida de la no aparición del El, lo que nos aporta una gran infor- 
mación predictiva a pesar de que no se da una contigúidad entre ambos 
estímulos. 


Estas posibles alternativas, imprescindibles, 
como veremos, para el cálculo de la contingen- 
cia, se resumen en una tabla de contingen- 

A A cias. Esta tabla es una matriz 2x2 que repre- 
el cielo después tenga lu- Í ¡ 
gar una tormenta es ma- senta las ocurrencias conjuntas del EC y el El 
yor que la probabilidad (véase Tabla 3.4.). 
de que estando el cielo 
completamente despeja- 
do se ponga a llover de 
repente. Por eso, cuando El NO El 
vemos el cielo encapo- 
tado solemos pensar en 
que pronto va a llover. NO EC c d 


Ejemplo 


La probabilidad de 
que habiendo nubes en 


Tabla 3.4. Tabla de Contingencias 


EC a b 


La matriz muestra en sus cuatro celdas los cuatro tipos de combinacio- 
nes posibles que se pueden dar entre la aparición de un EC y la de un El en 
un procedimiento de condicionamiento: 
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a: Indica el número de ensayos de condicionamiento en los que habien- 
do aparecido el EC después aparece el El. 


b: Indica el número de ensayos de condicionamiento en los que habien- 
do aparecido el EC después NO aparece el El. 


e: Indica el número de ensayos de condicionamiento en los que NO ha- 
biendo aparecido el EC si aparece el El. 


d: Indica el número de ensayos de condicionamiento en los ninguno de 
los dos estímulos aparece. 


Sabiendo esto, se pueden calcular probabilidades condicionales te- 
niendo en cuenta toda la información obtenida de las cuatro celdas o una 
información relativa por fila o por columna. Por ejemplo, la probabilidad 
de que se dé el El después de que el EC haya tenido lugar (denominada P,) 
se calcula teniendo en cuenta las veces que el El aparece después de que lo 
haga el EC en función de todas las veces, en total, que ha aparecido el EC 
(haya o no haya aparecido después el El). De ahí que: 


P,=P(EIJEC) = a / (a+b) 


De la misma forma podemos hacer el cálculo relativo de la probabili- 
dad de que el El tenga lugar tras la NO aparición del EC (P,) teniendo en 
cuenta todos los casos en los que dicho El aparece (ya sea precedido o no 
de un EC): 


P,=P(EIJEC) = e / (c+d) 


Aunque se pueden dar múltiples combinaciones entre las celdas además 
de las mostradas por P, y P, (por ejemplo, la probabilidad de aparición del 
EC en relación a todas las posibles opciones : (a+b)/(a+b+c+d)), estas dos son 
las utilizadas para el cálculo de la contingencia en el aprendizaje asociativo. 


Esto es, la contingencia se calcula teniendo en cuenta la probabilidad de 
la aparición del El en presencia del EC en relación a la aparición del El sin 
que previamente haya aparecido el EC. El índice resultante de este cálculo 
de contingencia se llama AP y puede comprender valores entre -1 y 1. 


AP = P(EIEC) - P(El|[noEC)= P,-P,= [a/a+b] -[c/c+d] 
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Según sus valores numéricos hay tres tipos de contingencia: 


— Contingencia positiva: si la aparición del EC es un buen predictor 


de la aparición del El (la luz predice bien la posterior aparición de la 
descarga), el El debe ocurrir con más probabilidad cuando el EC ha 
sido presentado previamente que en ausencia de éste. En este caso 
se da un condicionamiento excitatorio. 


P(EIJEC) > P(El[noEC) 
es decir, P,>Po 


AP>0 


En el caso en el que el El sólo ocurra en presencia del EC y nunca 
en su ausencia, la contingencia será perfecta: 


AP = P(EIJEC) - P(El[noEC) = 1-0 = 1 


Contingencia nula: Si la probabilidad de que el El apareciese en 
presencia o en ausencia del EC fuese la misma (es decir, la descarga 
aparece el mismo número de veces en presencia que en ausencia de 
la luz), la contingencia tomaría un valor numérico de 0. Esto impli- 
caría, en teoría, una ausencia total de condicionamiento. 


P(EIJEC) = P(El|noEC) 
es decir, P,=P, 


AP =0 


Aunque, como decimos, en teoría debería darse una falta de 
condicionamiento, en la práctica tiene lugar un efecto llamado irre- 
levancia aprendida. El sujeto aprende que no hay una relación de 
contingencia entre el EC y el El lo que retrasa un posterior aprendi- 
zaje de dicha relación, de forma similar a como ocurre en el fenóme- 
no de preexposición al EC o al El. 


Contingencia negativa: Una contingencia negativa indica que el EC 
es un gran predictor del El, pero de su ausencia, no de su presencia. 
Esto implicaría que el El es menos probable en presencia que en 
ausencia del EC. En nuestro ejemplo, la descarga aparecería más 
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veces en ausencia de la luz que en su presencia, por lo que la luz no 
nos serviría para predecir su posterior aparición sino su posterior 
NO aparición. 


P(EIJEC) < P(El[noEC) 
es decir, P,<P, 


AP<0 


En el caso en el que el El siempre apareciese en ausencia del EC 
y nunca en su presencia, 


AP = P(EIEC) - P(El[noEC) = 0-1 = -1 


Cuando la contingencia es negativa el condicionamiento es inhibitorio. 
En el condicionamiento inhibitorio, como vimos en el capítulo anterior, un 
EC predice la no aparición de un El. Cuando la contingencia es negativa, el 
El aparece con más frecuencia cuando el EC no está presente, por lo que el 
EC se convierte en un buen predictor, pero en este caso, de la ausencia del El. 


P(EIEC) 


P(ElI|noEC) 


Figura 3.5. Representación gráfica de AP 


Como se puede ver en la Figura 3.5, la contingencia también se puede 
representar gráficamente. Los valores superiores a la línea diagonal (trián- 
gulo superior izquierdo) representan situaciones de contingencia positiva, 
mientras que los que están por debajo (triángulo inferior derecho) repre- 
sentan la contingencia negativa. Las situaciones representadas por la dia- 
gonal corresponden a la ausencia de condicionamiento, es decir, AP = 0. 
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2.2. Fenómenos de competición de claves 


La importancia de que un EC sea un buen predictor del El para que 
el condicionamiento tenga lugar ha quedado patente con el concepto de 
contingencia. Pero, a veces, puede haber una contingencia perfecta entre 
un EC y un El y aún así la RC no tiene lugar. Esto es lo que muestran los 
fenómenos de competición de claves. 


En estos fenómenos, como su propio nombre indica, se da una compe- 
tición entre los distintos ECs presentes para ser el mejor predictor del El. 
Incluso cuando la contingencia entre cada uno de ellos y el El es perfecta, 
existen otros factores que pueden influir en el condicionamiento, favore- 
ciéndolo o dificultándolo. 


Hay varios fenómenos de competición de claves, de los cuales destaca- 
remos dos: el ensombrecimiento y el bloqueo. 


1. Ensombrecimiento 


Este efecto (Pavlov, 1927) es el más sencillo de todos los fenóme- 
nos de competición de claves (ver diseño experimental en Tabla 3.5). 
En este caso, a diferencia de en el condicionamiento que hemos 
visto hasta ahora, son dos los ECs presentes de forma simultánea. 
Por ejemplo, supongamos que queremos condicionar una luz (EC,) 
y un sonido (EC,) con una descarga posterior (El) para provocar una 
respuesta de miedo en unos animales. Aunque la contingencia entre 
el EC, y el El y entre el EC, y el mismo El es perfecta, ambos ECs 
compiten para ser un mejor predictor del El. 
Ejemplo Por eso, al aparecer juntos, EC, ensombrece a 
EC,, teniendo como consecuencia una menor 
RC frente a EC, con respecto a ese mismo EC 

con patatas para cenar Ñ 
y horas después siento en un grupo control en el que EC; no ha sido 


malestar estomacal. En ensombrecido. 
vez de pensar que am- 


Como huevos fritos 


bos alimentos me han Tabla 3.5. Diseño experimental 
producido el dolor por del ensombrecimiento 

igual, creo que han si- 

do los huevos fritos los IN Prueba 
responsables de que me Gr. Experimental | (EC,+EC,)-El | ¿EC;¡? | Poca RC 


encuentre mal. 


Gr. Control EC, - El ¿EC¡? | Mucha RC 
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Este fenómeno puede revertirse si llevamos a cabo una recuperación 
del ensombrecimiento (ver Tabla 3.6). Para ello, tras el ensombrecimiento 
debemos mostrarle al sujeto que ahora el estímulo ensombrecedor ya no es 
un buen predictor del El, con lo que conseguiremos que la RC frente al EC 
ensombrecido aumente (con respecto a un grupo control en el que la fase 
de recuperación del ensombrecimiento no ha tenido lugar). 


Tabla 3.6. Diseño experimental de la recuperación del ensombrecimiento 


Fase 1 Fase 2 Prueba Resultado 
Gr. Experimental (EC,+EC))-El | EC),- no El ¿EC,? Mucha RC 
Gr. Control (EC,+EC))-El — ¿EC¡? Poca RC 
2. Bloqueo 
El bloqueo (Kamin, 1968) es un efec- E 
Ejemplo 


to muy estudiado de competición de 
claves que consta de dos fases de entre- 
namiento (ver diseño experimental en 
Tabla 3.7). Al igual que ocurre con el en- 
sombrecimiento, la aparición conjunta 
de dos ECs igualmente contingentes con 
el El determina la RC frente a cada uno 
de ellos. 


En este caso el emparejamiento pre- 
vio (durante la primera fase de entre- 
namiento) de un estímulo (EC;,) con el 
El correspondiente determinará el con- 


Cada vez que como 
huevos fritos siento ma- 
lestar estomacal. Ayer, 
mi madre me puso hue- 
vos fritos con patatas 
para comer. Como pre- 
viamente ya he sufrido 
este malestar comiendo 
sólo huevos fritos, si 
como patatas sin huevo 
frito no me producirá 
por si solas el malestar. 


dicionamiento de un EC posterior (EC,) con el mismo El, cuando 
ambos ECs aparecen juntos. Es decir, inicialmente se establece 
una asociación entre el estímulo EC, y el El y cuando este estímulo 
está completamente condicionado se añade un segundo estímulo 
(EC,). La poca fuerza de la RC ante el EC, durante la fase de prueba 
muestra que el aprendizaje previo del EC, bloquea el desarrollo de 
la RC ante el estímulo añadido durante la segunda fase de entre- 
namiento (EC,). 
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Tabla 3.7. Diseño experimental del bloqueo. 


Fase 1 Fase 2 Prueba Resultado 
Gr. Experimental EC;¡-El (EC¡+EC))-El ¿EC,? Poca RC 
Gr. Control EC/,/El (EC, +EC,)-El ¿EC),? RC Media 


Por ejemplo, de manera similar al caso de ensombrecimiento del apar- 
tado anterior, supongamos que condicionamos una luz (EC;¡) con una 
descarga posterior (El) para provocar una respuesta de miedo en unos 
animales. Si en una segunda fase de entrenamiento añadimos un estímulo 
nuevo (EC,), por ejemplo, un sonido, aunque la contingencia entre dicho 
sonido y el El es perfecta, el hecho de que la luz (EC;) ya se haya mostrado 
como un predictor eficaz de la descarga en una fase previa va a dar como 
resultado una menor RC frente a EC, con respecto a ese mismo EC en un 
grupo control en el que en la Fase 1 no se produce la asociación EC;-El y, 
por lo tanto, EC, no ha sido bloqueado. 


Merece especial atención el control utilizado en el procedimiento de 
bloqueo. Para conseguir que los grupos experimental y control sean lo más 
parecidos posibles desde un punto de vista metodológico, se presentan los 
mismos estímulos el mismo número de veces en ambos grupos pero en el 
caso del grupo control el EC, y el El se muestran explícitamente desempa- 
rejados para que no se cree asociación alguna entre ellos en la primera fase 
de entrenamiento. 


La inversión de las fases de entrenamiento en un diseño de bloqueo da 
lugar a un tipo de bloqueo distinto: el bloqueo hacia atrás (Shanks, 1985). 
En este caso, como se puede ver en la Tabla 3.8, primero tiene lugar en 
entrenamiento en compuesto de ambos estímulos (EC, y EC,) seguidos 
por el El. 


Tabla 3.8. Diseño experimental del bloqueo hacia atrás. 


Fase 1 Fase 2 Prueba Resultado 
Gr. Experimental (EC¡+EC,)-El EC;¡-El ¿EC? Poca RC 
Gr. Control (EC,+EC,)-El EC//El ¿EC,? RC Media 
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2.3. Teorías del aprendizaje 


Numerosas son las teorías y modelos que tratan de dar explicación a la 
forma en la que los humanos y demás animales aprendemos. A continua- 
ción introducimos algunas de las más relevantes en el área. 


2.3.1. Modelo Rescorla-Wagner 


Pensemos en la primera vez que se asocia un EC con un El. Ya que hasta 
ese momento el El no era predicho por ningún otro elemento, éste resulta 
sorprendente y, por ello, aprendemos algo nuevo sobre la asociación EC- 
El. El emparejamiento sucesivo, a lo largo del entrenamiento, de estos dos 
estímulos hace que nos resulte menos sorprendente la aparición del El a 
continuación del EC. En algún momento del entrenamiento, el EC predice 
de forma perfecta al El, es decir, esperamos sin lugar a dudas que el El 
aparezca tras el EC, por lo que el El no resulta sorprendente de ninguna 
manera y el aumento en el aprendizaje ya no tiene lugar. 


Esta idea fue sugerida inicialmente por Kamin (1968, 1969) en referen- 
cia a los efectos de competición de claves que hemos visto anteriormente. 
Como se describe en el efecto de bloqueo, la asociación previa entre un 
EC, y el El condicionará el aprendizaje de otra asociación en el que el mis- 
mo El se ve implicado (EC,-El). Según este autor, esto es debido a que el 
El ya no nos resulta sorprendente, porque es predicho de forma perfecta 
por el EC.,. 


Debido a la importancia del concepto de sorpresividad en lo que al pro- 
ceso de aprendizaje se refiere, Robert Rescorla y Allan Wagner (Rescorla y 
Wagner, 1972; Wagner y Rescorla, 1972), propusieron un modelo asociativo 
para el aprendizaje que, a día de hoy, sigue siendo un modelo de referencia. 
La principal característica del mismo es que asume que en un ensayo de 
condicionamiento el aprendizaje sólo tiene lugar si el El es sorprendente. 


Rescorla y Wagner sugieren que la fuerza asociativa entre un EC y un El 
aumenta en cada ensayo de aprendizaje hasta que el EC predice completa- 
mente el El y éste deja de ser sorprendente, punto en el cual dicha fuerza 
alcanza su máximo posible. Estas variaciones de la fuerza asociativa en 
cada ensayo de aprendizaje dependen de las siguientes variables: 
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— La saliencia del EC y el El (que llamaremos, a y B), constantes durante 
todo el proceso de aprendizaje. Numéricamente, esta saliencia pue- 
de expresarse desde un valor mínimo de O a uno máximo de 1, para 
ambos estímulos en el caso de que estén presentes. Habitualmente la 
saliencia del EC toma un valor de 0.5 y la saliencia del El un valor de 1. 


— La magnitud del El (A, lambda). Tras la aparición del EC en un en- 
sayo de condicionamiento, y relacionado con el concepto de contin- 
gencia, puede tener lugar la aparición del El, en cuyo caso el valor 
de A sería 1, o, no tener lugar, en cuyo caso su valor numérico sería 
0. Este concepto está asociado con el límite superior de una curva de 
aprendizaje, es decir, el máximo de esperabilidad del El (asíntota), 
que correspondería a un A = 1. 


— La fuerza asociativa que la asociación EC-El ha adquirido hasta el 
ensayo anterior de condicionamiento (V”!). Indica el aprendizaje 
previo sobre la relación EC-El llevado a cabo hasta ese momento. Su 
valor numérico puede, de nuevo, oscilar entre 0 y 1. 


El cálculo final del incremento de fuerza asociativa entre el EC y el El 
en un ensayo concreto (n) de aprendizaje se calcula matemáticamente con 
la siguiente fórmula: 


AV? = aBa-V ra) 


Como muestra dicha fórmula, el incremento en la fuerza asociativa de 
la relación EC-El en un ensayo determinado de aprendizaje (AV”) es direc- 
tamente proporcional a la saliencia de ambos estímulos y depende de la 
diferencia entre el máximo de aprendizaje adquirible (A) y la fuerza de la 
asociación hasta el ensayo anterior (V **), AV puede, dependiendo de las 
condiciones, oscilar entre valores de -1 a 1. 


Una parte a destacar de esta fórmula es el término (A-V"!). Este térmi- 
no denota la sorpresividad del El. Como hemos visto, A indica si el El está 
presente y en qué magnitud y V "! se refiere al término del aprendizaje, 
describe en qué medida el EC está asociado o predice el El. La diferencia 
entre los dos términos indica la diferencia entre lo que podemos llegar a 
aprender sobre la asociación entre el EC y el El y lo que hemos aprendido 
hasta ahora, es decir, lo sorprendente que nos resulta la aparición del El 
tras el EC en ese ensayo de condicionamiento. Cuanto mayor sea V”!, el EC 
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se convierte en un mejor predictor del El y la diferencia (A-V ”!) va siendo 
cada vez menor hasta que no ocurren más cambios en la fuerza asociativa. 


La fuerza asociativa neta (V) en un ensayo determinado se calcula su- 
mando la fuerza asociativa adquirida en el entrenamiento hasta el ensayo 
anterior y el incremento de la misma en el ensayo actual. 


V= Vr AVn 
El proceso de aprendizaje de una asociación básica entre un EC y un 
El queda ilustrado en la Figura 3.6. Esta figura muestra el crecimiento de 
la fuerza asociativa que se crea entre el EC y el El a medida que se repiten 


los emparejamientos en el tiempo de estos estímulos, lo que es denominado 
«Curva de aprendizaje». 
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Figura 3.6. Curva de aprendizaje en un condicionamiento excitatorio 


En cada ensayo de condicionamiento hay un aumento de la fuerza aso- 
ciativa y por lo tanto se da un aprendizaje. En los primeros ensayos, ese 
crecimiento es mayor (hay una mayor diferencia entre ensayo y ensayo), 
disminuyendo a medida que avanza el entrenamiento. Según Rescorla y 
Wagner, esto ocurre porque el El es cada vez menos sorprendente. Por eso, 
en los primeros ensayos, el paréntesis (A-V "!) tiene valores mayores: la 
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discrepancia entre lo que ocurre (aparición del El en su magnitud) y lo que 
esperamos (la fuerza asociativa entre el EC y el El en los ensayos previos) es 
muy grande y por tanto el incremento del aprendizaje en dichos ensayos es 
mayor. Dicho incremento, al igual que la sorpresividad van disminuyendo 
con el entrenamiento hasta llegar a una asíntonta, es decir, a un ensayo en 
el que el incremento del aprendizaje, AV, es cercano a 0, y la fuerza asocia- 
tiva de la asociación haya alcanzado el 100% de su valor. 


Como hemos visto, la sorpresividad del El depende directamente de la 
magnitud o intensidad del mismo (A). Por ejemplo, si el El utilizado en un 
ensayo de condicionamiento es una descarga de cierta intensidad, su efecto 
sobre el aprendizaje no será el mismo que si utilizamos una descarga con 
el doble de intensidad. 


El comportamiento de la curva de aprendizaje en referencia a la utili- 
zación de distintas magnitudes del El puede verse en la siguiente gráfica 
(Figura 3.7). Como se puede apreciar, la utilización de dos magnitudes 
distintas de un El da lugar a curvas de aprendizaje que se comportan de 
forma distinta. Cuando la intensidad es mayor, A es mayor y más alta es la 
asíntota que puede alcanzar el aprendizaje. Esto está en consonancia con 
los efectos de la intensidad descritos en el apartado anterior. 
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Figura 3.7. Curva de aprendizaje de condicionamiento excitatorio con dos Els de 
intensidades distintas (A, y A). 
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Por último, como hemos visto, Rescorla y Wagner incluyen en el cálculo 
de la fuerza asociativa durante un ensayo de condicionamiento la saliencia 
de los estímulos implicados en el mismo. La saliencia del EC (0), puede 
modificar la cantidad de aprendizaje de un ensayo, ya que se multiplica por 
el factor sorpresividad: cuanto mayor sea la saliencia del EC, mayor será 
el aprendizaje en ese ensayo. La consecuencia directa de esto es que una 
mayor saliencia hace que se alcance más rápido la asíntota del aprendiza- 
je, aunque no afecta al propio máximo del aprendizaje, ya que éste viene 
determinado por la magnitud del El (A). En la Figura 3.8 podemos observar 
los cambios en la curva del aprendizaje utilizando valores de la saliencia de 
ECs distintos. 
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Figura 3.8. Curva de aprendizaje de condicionamiento excitatorio con dos EC de saliencias 
distintas (0, y 07). 


Aunque en un ensayo de condicionamiento de primer orden sólo estén 
presentes un EC y un El, Rescorla y Wagner afirman que en situaciones en 
las que varios estímulos están presentes, la capacidad predictiva del EC se 
ve afectada por la presencia de los mismos. Esto es lo que ocurre en efectos 
de competición de claves, como el bloqueo o el ensombrecimiento, expues- 
tos con anterioridad en este capítulo. 
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Según estos autores, si dos ECs se presentan en compuesto, como en 
un ensayo de ensombrecimiento, ambos contribuyen a predecir el El y por 
lo tanto ambos influyen en los cambios de la fuerza asociativa en dicho 
ensayo de condicionamiento. Para tener en cuenta este hecho a la hora de 
cuantificar el aprendizaje, modificaron su fórmula básica sustituyendo V”! 
por el término XV "1: 


AV = oB(-EV "1) 


XV "! indica la suma de todos los valores V "* de todos los estímulos 
presentes en ese ensayo. De esta forma, el valor de sorpresa viene dado por 
la diferencia entre A y la suma del valor asociativo de todos los estímulos 
presentes. 


Además de la adquisición, esta teoría puede dar explicación a otros 
fenómenos del aprendizaje asociativo, como los ya comentados efectos de 
competición de claves, la extinción o el condicionamiento inhibitorio, fenó- 
menos descritos en el capítulo 2 de este libro. 


BLOQUEO 


Como hemos comentado en este mismo capítulo, en el efecto de bloqueo 
el aprendizaje de la asociación entre un nuevo EC y el El se ve alterada 
porque dicho El ya era predicho de forma efectiva por otro EC con ante- 
rioridad. 


Según Rescorla y Wagner, la primera fase de condicionamiento de un 
efecto de bloqueo, cuando el animal está aprendiendo la asociación entre 
el EC, y el El, dicho EC adquiere un valor de V positivo a medida que van 
transcurriendo los ensayos de condicionamiento hasta alcanzar la asíntota 
del aprendizaje. Suponiendo que utilizásemos un El que tuviese un A=1, al 
final de la primera fase de condicionamiento el valor asociativo V;¿, sería 
cercano a 1. 


En el primer ensayo: 
AV zc1 = AB(U-0)= af 
V Ec1- 0 
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En el último ensayo: 
AV zc1 = ap(1-1)= 0 
V uc1- 0+1=1 


la fuerza asociativa de EC, ha llegado a su valor asintótico y por lo tanto 
practicamente no se da incremento de la misma en dicho ensayo. 


Durante la segunda fase de entrenamiento, los ensayos de condiciona- 
miento continúan pero ahora se añade un EC, al EC, presentado durante 
la primera fase, ambos seguidos del El. Así que durante esta fase, para 
el cálculo de la fuerza asociativa entre ese nuevo EC (EC,) y el El, la V 
de la ecuación se convertirá en XV”! para mostrar la fuerza asociativa de 
todos los estímulos presentes en ese ensayo, es decir, de EC, y de EC,, y 
su influencia sobre el incremento del aprendizaje en cada ensayo de con- 
dicionamiento: 


AVgc, = ABU-2V »!) 


O lo que es lo mismo 


AVzc, = ABÍA - (Vigo! + Vai) 

Ya que el EC, no se ha presentado con anterioridad, todavía no tiene 
fuerza asociativa y su valor inicial V es 0. Pero, la fuerza asociativa del 
EC, es máxima (V=1), debido a lo ocurrido durante la primera fase del 
entrenamiento por lo que AV¿¿, en el primer ensayo de esta segunda fase 
sería 


AVec> = BC - (1+ 0))=0 


El incremento de la fuerza asociativa entre el EC, y el El durante este 
primer ensayo es, como se puede apreciar, inexistente. El modelo lo ex- 
plica por la ausencia de sorpresa. Como el El ya era predicho con ante- 
rioridad por EC,, su aparición no produce sorpresa alguna en los ensayos 
compuestos ((1-EV)=0) por lo que no es necesario aprender nada sobre la 
relación EC,-El para anticipar la aparición de dicho El. Por tanto, según 
Rescorla-Wagner, se está produciendo un bloqueo de la adquisición de la 
asociación EC,-El. 
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EXTINCIÓN 


Este modelo también proporciona una explicación a la extinción. Como 
hemos visto en el capítulo 2, tras un entrenamiento de adquisición de una 
asociación pavloviana, EC-El, que da lugar a una RC esperada, se puede 
extinguir dicha RC si se presenta repetidamente el EC sin ir seguido del El. 


En este caso, en lo que a la aplicación del modelo se refiere, presentar 
el EC sin que vaya seguido del El es como hablar de un El que tiene inten- 
sidad cero (1=0). Por esto, el primer ensayo de extinción, tras un procedi- 
miento de adquisición, se plasmaría numéricamente de la siguiente forma: 


AV = AaBU-V)= ap(0-1)= - ap 


El incremento de la fuerza asociativa (AV) en el primer ensayo de ex- 
tinción es en realidad un decremento, ya es un término negativo. A medida 
que transcurren los ensayos de extinción, el valor de V va reduciéndose 
hasta que no hay más sorpresa (es decir, el término (1-V) se acerca a 0) y la 
asíntota se acerca esta vez a cero (Figura 3.9). 


AV = aBA-V")= ag(0-0)= 0 
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Figura 3.9. Curva de aprendizaje en la extinción 
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Teniendo en cuenta lo anterior, el modelo se apoya formalmente en la 
idea de que la excitación y la inhibición son extremos contrarios de un con- 
tinuo (Rescorla, 1967b). Por lo tanto, la extinción consiste en un desaprendi- 
zaje según este modelo. Como veremos en el siguiente apartado, éste enfoque 
no es correcto ya que no se ajusta a lo que se conoce como la extinción. 


INHIBICIÓN CONDICIONADA 


De forma similar a lo que ocurre en la extinción, en el fenómeno de inhi- 
bición condicionada (para una explicación más detallada del fenómeno (véa- 
se capítulo 2), un EC predice la ausencia de la aparición posterior de un El. 


En el caso de este efecto, durante la primera fase de entrenamiento, un 
EC (EC;) es emparejado con un El hasta llegar a la asíntota del aprendizaje 
(V=1). En una segunda fase, ese mismo EC se empareja con el EC que va 
a convertirse en inhibitorio (EC,), siendo ambos seguidos de la ausencia 
del El. Durante esta segunda fase, según Rescorla y Wagner, en el primer 
ensayo del compuesto ocurriría lo siguiente: 


AVzc¡ = AB - (Vecr, Vec2))= ABLO - (1+0))= - LB 
Esto indica que la fuerza asociativa del EC, irá decreciendo a medida 


que aumenten los ensayos en compuesto, hasta llegar a 0. 


Como hemos podido ver, según este modelo, en el caso de entrenamien- 
tos en compuesto los EC excitatorios suman fuerza asociativa mientras que 
los inhibitorios la restan. 


PROBLEMAS DEL MODELO 


Aunque es un modelo de referencia en el estudio del aprendizaje asocia- 
tivo, el modelo Rescorla-Wagner tiene una serie de limitaciones que deben 
tenerse en cuenta (Miller, Barnet y Grahame, 1995). Aquí destacaremos las 
más importantes: 


1. La extinción de la inhibición condicionada 


Este modelo afirma que si se presenta repetidamente un inhibi- 
dor condicionado sin ir acompañado de un El (es decir, A = 0), la 
inhibición se extinguirá. 


135 


PSICOLOGÍA DEL APRENDIZAJE 


136 


Si aplicamos la fórmula a esta fase de extinción de la inhibición, 
el incremento de la fuerza asociativa del EC inhibitorio sería positivo 
en el primer ensayo: 


AV = apla - V)= alo - (-1))= af 


lo que, según este modelo, hará que el EC anteriormente inhibi- 
torio se convierta en excitatorio poco a poco. 


Pero esto no ocurre en realidad. De forma contraria, ciertas in- 
vestigaciones (De Vito y Fowler, 1986; Hallam, Grahame, Harris y 
Miller, 1992; Witcher y Ayres, 1984; Zimmer-Hart y Rescorla, 1974) 
muestran que no presentar el El tras la aparición de un EC inhibi- 
torio puede aumentar sus propiedades inhibitorias. Es posible que 
la deducción del modelo sea errónea porque considera, como he- 
mos dicho previamente, la excitación y la inhibición como procesos 
opuestos y de signo contrario. 


2. La inhibición latente (preexposición al EC) 


El modelo Rescorla-Wagner no puede explicar el efecto de inhi- 
bición latente. En este efecto, como hemos visto en apartados ante- 
riores, un EC es preexpuesto sin ir seguido de un El para aparecer 
juntos en una fase posterior. Para este modelo, como el El no apa- 
rece ni es esperado durante la fase de preexposición al EC, no hay 
asociación EC-El en esa fase y el valor de V no varía, siempre es O, 
por lo que no debería afectar al aprendizaje de la posterior fase de 
condicionamiento. 


Durante la fase de preexposición al EC 
AV = aB( - V)= apí(O - 0)= 0 
Entonces, en el primer ensayo de condicionamiento tras la preex- 
posición, según este modelo, 
AV = ABU - V)= Ap( - 0)= af 
Sin embargo, los datos muestran que, el aprendizaje de dicho 


condicionamiento se ve retrasado por la previa preexposición al EC, 
no comportándose como el modelo predice. 


3. 
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Bloqueo 


Aunque el diseño experimental utilizado en el efecto de bloqueo 
(ver Tabla 3.7) suele tener como resultado una menor RC como 
respuesta al EC bloqueado (EC,) durante la segunda fase del entre- 
namiento, algunas veces se da el efecto contrario. A este efecto se le 
llama aumentación o contrabloqueo (Batsell, Paschall, Gleason 
y Batson, 2001; Batsell y Batson, 1999; Batson y Batsell, 2000). La 
aumentación consiste en un aumento de la RC ante el EC (EC,) pre- 
sentado en compuesto con EC.. 


Al contrario que con el bloqueo, el modelo Rescorla-Wagner no 
puede dar una explicación satisfactoria al fenómeno del contrablo- 
queo. Como hemos visto en la explicación del bloqueo, este modelo 
predice que la aparición de EC, no produce ninguna sorpresa en los 
ensayos de compuesto ya que el El era predicho con efectividad por 
otro EC (EC), y por lo tanto no se aprende nada sobre la relación 
EC),-El y la RC ante EC,es mínima. 


Extinción de la excitación condicionada 


El modelo Rescorla-Wagner explica la extinción como un desa- 
prendizaje, pero esta explicación no es correcta. Fenómenos cómo 
la recuperación espontánea, la renovación o la reinstauración, 
vistos en el capítulo anterior, muestran que la extinción no es un 
desaprendizaje ni lo contrario a la adquisición, sino un aprendizaje 
distinto. 


Aunque aquí sólo hemos nombrado algunos de ellos, este modelo 
tampoco explica otros fenómenos relevantes, como el precondicio- 
namiento sensorial, la habituación o la irrelevancia aprendida (para 
una explicación más detallada ver Miller y cols., 1995). 


2.3.2. La importancia del contexto 


Los estudios sobre contingencia y las teorías más relevantes, empe- 


zando por Rescorla-Wagner, han puesto de relieve la importancia del 
contexto en la manifestación de la RC (Balsam y Tomie, 1985; Bouton y 
Nelson, 1998). 
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En concreto, este modelo resalta el hecho de que el EC y el El no se pre- 
sentan de forma aislada a otros estímulos durante el condicionamiento, sino 
que lo hacen dentro de un contexto específico (por ejemplo, una caja de Skin- 
ner). Los estímulos propios del contexto en el que se realiza el entrenamiento 
(olores, colores, formas...) son claves que el animal aprende junto con el EC. 
De hecho, se podría considerar que las claves contextuales son entrenadas en 
compuesto con el EC, sirviendo de ECs de mayor duración, y, por lo tanto, 
produciendo efectos similares al bloqueo o el ensombrecimiento. De igual 
forma, cuando el El se presenta en ausencia del EC, también lo hace dentro 
de un contexto con diferentes claves, quedando asociado al mismo. 


Teniendo en cuenta la presencia constante de estímulos del contexto 
que condicionan la relación entre el EC y el El, los tipos de contingencias 
descritos en el apartado 2.1 pueden describirse en relación a dichos estí- 
mulos del contexto. 


Conforme a la presencia o ausencia del EC en un ensayo de condicio- 
namiento dentro de un contexto, podrían ocurrir dos tipos de ensayos dis- 
tintos. Los ensayos de condicionamiento EC-El, cuando el EC (junto con 
el contexto) van seguidos del El y los momentos entre ensayos de condi- 
cionamiento, en los que en espera del inicio del siguiente ensayo sólo están 
presentes las claves del contexto y el El. Cuando la proporción de veces en 
las que el EC, junto con el contexto, van acompañados del El es mayor que 
en las que sólo lo está el contexto, se dará una contingencia positiva EC-El. 
Por el contrario, si la probabilidad de aparición del El en presencia sólo del 
contexto (sin el EC) es mayor, la contingencia que percibiremos entre EC 
y El será negativa. Por último, si la proporción de veces en las que el com- 
puesto EC+contexto va acompañado del El y en las que sólo el contexto está 
presente cuando el El lo está es similar, la contingencia percibida será nula. 


2.3.3. Hipótesis del comparador 


La importancia de los estímulos del contexto se pone también de relieve 
en teorías como la del comparador (Denniston, Savastano y Miller, 2001; 
Miller y Matzel, 1988,1989). Esta hipótesis propone que la respuesta condi- 
cionada no sólo depende de la asociación entre el EC y el El sino también 
del resto de asociaciones presentes en ese mismo momento que puedan 
establecerse entre las claves del contexto y el propio El. 
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El sujeto experimental expuesto a un ensayo de condicionamiento 
aprende dos cosas: que el EC y el El están asociados, y que las claves del 
contexto y el El también lo están. La comparación entre ambos tipos de 
asociaciones será determinante para el nivel de respuesta al EC. La fuerza 
asociativa de las asociaciones creadas entre el contexto y el El condiciona- 
rán la manifestación de la respuesta. Esto es, si la fuerza asociativa de la 
asociación EC-El es mayor que aquella que presentan la asociación entre 
las distintas claves del contexto y el El, la RC tendrá lugar (contingencia 
positiva). 


Sin embargo, si la asociación entre el EC y el El es más débil que la 
asociación entre otras claves del contexto y el El, el animal no mostrará la 
RC condicionada esperada ante el EC. Esto se debe a que es más probable 
que el animal perciba como mayor la posibilidad de que el El ocurra en 
presencia del contexto y no del EC (contingencia negativa). Es decir, si el 
valor excitatorio de las claves del contexto es mayor que la del propio EC, se 
dará una RC inhibitoria ante dicho EC. Un ejemplo de un efecto que tiene 
lugar de esta forma es el de la inhibición condicionada (Friedman, Blais- 
dell, Escobar y Miller, 1998; Kasprow, Schachtman y Miller, 1987; Miller, 
Barnet y Grahame, 1992). 


De la misma forma, si la asociación entre el EC y el El es comparable 
en fuerza a las formadas entre el contexto y el El, la contingencia será nula 
y de nuevo la RC frente al EC no tendrá lugar. 


Representación 
del EC crítico 


Xx 


Representación 


O directa del El 


Asociación 
intra-compuesto 
entre el EC crítico 
y el estímulo 
comparador 


O Comparación Respuesta al BC 


Representación O) Representación 


alesana ta indirecta del El 
comparador Asociación 
estímulo 


comparador 


Figura 3.10. Estructura asociativa del la hipótesis del comparador 
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La hipótesis del comparador asume que el animal puede aprender tres 
tipos de asociaciones durante el condicionamiento (ver figura 3.10): la pri- 
mera de ellas es la que se da entre el EC y el El (1), la segunda la que se 
da entre el propio EC y las claves del contexto (2); y la tercera, la que se da 
entre las claves del contexto y el El (3). 


Cuando se presenta el EC, éste activa dos tipos de representaciones del 
El: directas e indirectas. El El se activa de forma directa tras la aparición 
del EC (1) pero también de forma indirecta por las asociaciones creadas 
con el contexto y entre el contexto y el EC (2 y 3). Será entonces la com- 
paración entre las asociaciones directas e indirectas la que determine la 
intensidad de la RC y su carácter excitatorio o inhibitorio. 


Esta teoría tiene dos premisas a destacar. La primera de ellas es que 
según este modelo no existen las asociaciones inhibitorias. Sólo permite la 
formación de asociaciones excitatorias con el El (ya sea del EC o del con- 
texto). Por eso afirma que la manifestación final de la RC (como inhibitoria 
o excitatoria) depende de la fuerza relativa de la asociación excitatoria 
entre el EC y el El (1) con respecto a las asociaciones excitatorias entre el 
mismo contexto y dicho El (2 y 3). 


La segunda premisa fundamental de este modelo es que la comparación 
entre las asociaciones excitatorias que se forman durante el condicionamien- 
to determina la manifestación de la RC, pero no el aprendizaje. El animal 
hace la comparación entre las distintas fuerzas asociativas una vez que ha 
terminado el entrenamiento. Por esto mismo, el modelo predice que si se da 
un cambio en la fuerza asociativa del contexto después del aprendizaje, esto 
cambiará la forma en la que se responde al EC. Por ejemplo, si extinguimos 
la relación contexto-El, la RC frente al EC aumentará (Blaisdell, Gunther 
y Miller, 1999; Cole, Oberling y Miller, 1999; Matzel, Brown y Miller, 1987; 
Miller, Barnet y Grahame, 1992). De igual forma afirma que las diferencias 
en la RC se manifestarán como diferencias en la ejecución. En este sentido, 
explica efectos como el bloqueo como un fallo en la ejecución y no en el 
aprendizaje, como haría el modelo Rescorla-Wagner (Blaisdell y cols., 1999). 


2.3.4. Modelos atencionales 
TEORÍA DE MACKINTOSH 


Efectos como el del bloqueo son, como hemos visto, explicados por el 
modelo Rescorla-Wagner desde el punto de la falta de sorpresividad del El. 


140 


MECANISMOS ASOCIATIVOS Y TEORÍAS DEL CONOCIMIENTO CLÁSICO 


Sin embargo, investigaciones posteriores han dado lugar a explicaciones 
diferentes de este y otros fenómenos y a teorías completas del condiciona- 
miento, basadas no en la ausencia de sorpresividad sino en el papel de la 
atención en el aprendizaje. 


Mackintosh y Turner (1971), llevaron a cabo un experimento de bloqueo 
cuyas conclusiones aportaban explicaciones alternativas a las dadas por el 
modelo Rescorla-Wagner a dicho fenómeno. 


Estos autores presentaron a dos grupos, experimental y control (véase 
Tabla 3.9), un sonido seguido de una descarga eléctrica en una primera fase 
de condicionamiento. Durante la fase 2, se llevó a cabo el bloqueo, presen- 
tando en el grupo experimental un compuesto de dicho sonido con un estí- 
mulo luminoso que no había sido presentado con anterioridad, seguido el 
compuesto de una descarga. A diferencia de en el diseño básico de Kamin, 
Mackintosh y Turner (1971) expusieron a los sujetos de ambos grupos a 
una tercera fase con presentaciones del compuesto sonido-luz seguidos de 
una descarga de mayor duración que en las fases anteriores. 


Tabla 3.9. Diseño experimental de Mackintosh y Turner (1971) 


Fase 1 Fase 2 Fase 3 Prueba 

Gr. Sonido — Sonido + Luz— | Sonido + Luz — Luz? 

Experimental Descarga Descarga Descarga Larga E ] 

és tonal Sonido — Sonido + Luz — aia 
Descarga Descarga Larga 


Mientras que desde la teoría de Rescorla-Wagner las predicciones de este 
diseño experimental hubiesen predicho ausencia de diferencias de aprendi- 
zaje entre los dos grupos durante la segunda fase, los resultados del experi- 
mento mostraron otra realidad. El grupo control aprende durante la fase 3 
que la intensidad de la descarga aumenta cuando la luz está presente. En 
cambio, los animales del grupo experimental aprenden durante la fase 2 que 
la luz es redundante, que no es necesaria para predecir la posterior aparición 
de la descarga, y, por lo tanto, dejan de prestarle atención, lo que hace que 
no aprendan nada sobre dicho EC durante la fase 3 del experimento. 


Esto es, mientras que el modelo Rescorla-Wagner explica el efecto de 
bloqueo como una consecuencia de la falta de sorpresividad del El, la teoría 
de Mackintosh muestra que dicho efecto se debe al hecho de que los anima- 
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les ignoran los estímulos predictores redundantes. Es decir, efectos como el 
bloqueo se deben a la falta de atención a ciertos estímulos. 


La teoría de Mackintosh (Mackintosh, 1975) tiene como base la idea de 
que la atención que se presta a un EC depende de lo efectivo que sea dicho 
EC prediciendo la aparición del El. Cuanto mejor predictor sea el EC del 
EL, mayor atención le prestaremos. La atención prestada a dicho EC tam- 
bién depende, como hemos visto en el caso del bloqueo, del resto de los ECs 
presentes: si nuestro EC no es mejor predictor del El que los demás ECs 
presentes, le prestaremos menos o ninguna atención. 


De forma similar a la fórmula utilizada para el cálculo de la fuerza 
asociativa por Rescorla-Wagner, Mackintosh (1975) afirma que la atención 
aumenta en los ensayos en los que el EC es un buen predictor del El y dis- 
minuye en aquellos que no lo es tanto. 


Esta teoría atencional puede dar explicación a algunos efectos para 
los que el modelo de Rescorla-Wagner no es capaz ajustarse al comporta- 
miento real mostrado por los sujetos experimentales, como es el caso de la 
inhibición latente. Mackintosh explica este efecto basándose en la falta de 
atención al EC irrelevante durante la fase de preexposición: si el EC no pre- 
dice la aparición del El dejamos de prestarle atención, por lo que cuando sí 
lo haga, nuestro aprendizaje de la asociación EC-El será más lento que si 
no hubiésemos sido preexpuestos a dicho estímulo. 


TEORÍA DE PEARCE Y HALL 


Mientras que Mackintosh (1975) afirma que es la falta de atención a los 
estímulos irrelevantes lo que condiciona el aprendizaje, otras teorías aten- 
cionales, como la de Pearce y Hall (1980) afirman prácticamente lo contra- 
rio. Estos autores sugieren que en un contexto de aprendizaje no debemos 
malgastar recursos prestando atención a estímulos que conocemos bien 
pero, sin embargo, sí debemos prestar atención a aquellos que todavía no 
controlamos con seguridad. 


Según esta teoría, prestaremos cada vez menos atención a un EC en la 
medida en que con cada ensayo de condicionamiento se convierta en mejor 
predictor del El. Si el El tras el EC no resulta sorprendente, prestaremos 
menos atención a dicho EC en el siguiente ensayo. Por el contrario, si dicho 
El resulta sorprendente, nuestra atención aumentará. 
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Al igual que Mackintosh, Pearce —Hall aportaron datos empíricos que 
apoyaron su teoría (Kaye y Pearce, 1984; Wilson, Boumphrey y Pearce, 1992). 


2.3.5. Otras teorías 


Numerosas son las teorías que tratan de explicar el condicionamiento 
pavloviano desde distintos puntos de vista, además de las comentadas hasta 
ahora. 


Una de las más completas debido a su perspectiva integradora y su ex- 
plicación de diversos efectos del aprendizaje es el modelo SOP (standard 
operating procedures; Wagner, 1981) y sus versiones posteriores (Wagner, 
2003; Wagner y Brandon, 1989; 2001). 


El modelo SOP extiende la teoría Rescorla-Wagner teniendo en cuenta 
marcos de referencia como la relación entre la memoria a corto y largo pla- 
zo y el aprendizaje. Wagner (1981) sugiere que un estímulo sorprendente 
tiene un mejor procesamiento en nuestra memoria a corto plazo y por lo 
tanto mayor probabilidad de mantenerse en nuestra memoria a largo plazo. 
Dentro de nuestro sistema de procesamiento de la información un estímulo 
resulta sorprendente si no está presente en nuestra memoria a corto plazo. 


Según esta teoría, al igual que para el modelo de Rescorla-Wagner, el 
aprendizaje depende de que el El sea sorprendente, pero, en este caso, la 
sorpresa se ve reducida si el estímulo ya está activado en nuestra memoria 
a corto plazo cuando se presenta físicamente. 


El modelo SOP representa el condicionamiento utilizando nodos y redes 
neuronales, herramientas propias del conexionismo (McClelland y Rumel- 
hart, 1985). Wagner (1981) asume que el condicionamiento da lugar a una 
asociación entre la representación del EC y la del El (ver Figura 3.11). 


La representación de dichos estímulos se denomina nodo. Las asocia- 
ciones entre nodos se conocen como conexiones. Según este modelo, los 
nodos que representan el EC y el El se activan cuando los estímulos reales 
lo hacen. Esta activación ocurre a dos niveles distintos de intensidad. Cuan- 
do el EC o el El están presentes físicamente, sus nodos pasan inicialmente 
a un estado llamado Al. Al se define como un estado en el que el nivel de 
activación es alto y la atención que se está prestando al estímulo también 
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Figura 3.11. Representación de los nodos de memoria de posibles ECs (luz, tono, ruido, 
contexto) y sus conexiones con el El. 


lo es. Un nodo sólo puede mantenerse en el estado A1 durante un breve 
intervalo de tiempo. Pronto decae al segundo estado existente, A2, en el 
que hay un menor nivel de activación, relacionado con una atención más 
periférica y menos focalizada. El nodo puede permanecer en este estado un 
largo periodo de tiempo hasta volver a un estado de inactivación. 


Una vez explicado el funcionamiento de la activación de las represen- 
taciones o nodos del EC y el El, este modelo describe la asociación que se 
forma entre ellos durante el aprendizaje. La asociación entre dos nodos, los 
correspondientes al EC y El, sólo tendrá lugar si ambos están activados, es 
decir, en el estado Al, ya que ambos deben coincidir en la memoria a corto 
plazo. 


La coincidencia de ambos nodos en el estado Al ensayo tras ensayo 
hace que la asociación entre ambos sea cada vez más fuerte. Una vez que 
ambos nodos están asociados, la activación del nodo que representa al EC 
tendrá como consecuencia la activación del nodo del El, pero no en su 
máximo nivel, sino en el estado A2 (el nodo del El se activaría en Al sólo 
con la presencia real de dicho El). 
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RESUMEN 


Las variables que influyen en el condicionamiento pavloviano son diversas 
e importantes. Quizá la más importante de todas sea las características de los 
estímulos involucrados en dicho condicionamiento. Como hemos visto, la in- 
tensidad, especialmente de los Els, favorece el aprendizaje, al igual que lo hace 
la novedad o la saliencia de los mismos. 


Las características de los estímulos no sólo son relevantes para el condi- 
cionamiento en general sino que condicionan la aparición de ciertos efectos o 
fenómenos ampliamente estudiados desde la Psicología del Aprendizaje, como 
la inhibición latente, el precondicionamiento sensorial y algunos otros. 


Los datos aportados sobre la influencia de las variables en el aprendizaje 
durante estos últimos años de investigación permiten facilitar el fin último de 
toda área de conocimiento: la búsqueda de una teoría general que explique 
cómo aprendemos. Aunque, a día de hoy no podemos hablar de una teoría 
general del aprendizaje, en este capítulo hemos resumido algunas de las más 
relevantes. El estudio de las mismas aporta una visión integradora de cómo los 
animales y los humanos aprendemos en situaciones específicas. 
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TÉRMINOS DESTACADOS 


Bloqueo: Efecto de interferencia que se produce sobre el aprendizaje de una 
asociación EC-El debido a un aprendizaje previo. 


Condicionamiento de orden superior: Tipo de procedimiento en el que se 
utiliza un estímulo previamente condicionado para condicionar un nuevo 
estímulo. 


Contingencia: Relación probabilística entre el EC y el El 


Contracondicionamiento: Tipo de procedimiento que se utiliza para variar 
o invertir la respuesta condicionada anterior utilizando un El distinto al 
utilizado previamente 


Ensombrecimiento: Efecto de interferencia que se produce sobre el apren- 
dizaje de la relación entre un EC y un El debido a la saliencia de otro EC 
presente en el condicionamiento. 


Precondicionamiento sensorial: Procedimiento que se utiliza para asociar 
dos estímulos biológicamente débiles. 


Preexposición al EC o inhibición latente: Interferencia sobre el aprendizaje 
de una asociación debida a la preexposición del EC implicado en la misma 


Saliencia: Perceptibilidad de un estímulo para un animal o especie concretos. 
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CONOCIMIENTOS PREVIOS 


Condicionamiento clásico o pavloviano: Tipo de aprendizaje mediante el 
cual se establecen en los organismos asociaciones entre estímulos condi- 
cionados (ECs) y estímulos incondicionados (Els). El condicionamiento 
clásico ocurre cuando un estímulo neutro (EC) adquiere la capacidad de 
provocar una respuesta debido al emparejamiento repetido con otro estí- 
mulo que la producía (ED. 


Conducta elicitada: Conducta que es provocada por estímulos específicos del 
entorno. Este tipo de conductas pueden ser innatas o aprendidas como 
sucede en el condicionamiento clásico. 


Contigitidad: Proximidad en la ocurrencia espacio-temporal de dos eventos. 
Los eventos son contiguos si ocurren de forma cercana en el tiempo y en 
el espacio. 


Contingencia: Probabilidad de ocurrencia de un suceso en función de la apa- 
rición de otro. 


Estímulo condicionado: Es un estímulo inicialmente neutro que adquiere 
la capacidad de provocar una respuesta condicionada como resultado del 
desarrollo de una asociación con otro estímulo. 


Estímulo neutro: Estímulo que no provoca respuestas incondicionadas o con- 
dicionadas específicas. En determinados casos puede producir respuestas 
no específicas, como una respuesta de orientación. 
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OBJETIVOS 


e Conocer los estudios que sirvieron de punto de partida para la formulación 
del condicionamiento operante y su consideración actual. 


Aprender a distinguir entre procedimientos de ensayo discreto y de operante 
libre. 


+ Comprender los principios del condicionamiento operante así como sus prin- 
cipales procedimientos. 


Conocer las distintas variables que afectan a este tipo de aprendizaje. 


Explicar y comprender algunos de los fenómenos de condicionamiento ope- 
rante más distintivos. 
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En los capítulos anteriores hemos aprendido cómo distintos estímulos 
provocan determinadas respuestas de forma refleja y cómo, mediante el 
condicionamiento clásico, ciertos estímulos que en principio no ejercían 
ningún efecto sobre la conducta (ECs), mediante su emparejamiento con 
estímulos incondicionados (Els) que producen respuestas incondicionadas 
(RIs) terminaban evocando una respuesta muy parecida (RC). En estos casos 
estábamos hablando de respuestas que son elicitadas, es decir, evocadas por 
estos estímulos. Sin embargo, muchas de las conductas que observamos dia- 
riamente como hablar, conducir o trabajar no ocurren de forma automática 
ante la presentación de un estímulo. Este tipo de conductas, más que evo- 
cadas son emitidas, es decir, en estos casos, la persona o el animal presenta 
una respuesta que en el pasado estuvo relacionada con un acontecimiento 
ambiental y, de esta forma, consigue o evita que un evento ocurra. Cuando 
una rata recibe una bolita de comida al presionar una palanca, cuando a 
nuestro perro le hacemos una caricia o le damos un pedacito de pienso des- 
pués de traernos una pelota, o cuando hacemos un trabajo y nos pagan por 
ello, es más probable que esas conductas se vuelvan a repetir. Sin embargo, 
si una rata recibe una descarga al presionar la palanca es probable que no 
vuelva a hacerlo. Del mismo modo, si a final de mes no recibimos el salario 
por nuestro trabajo es probable que acabemos abandonando ese trabajo. La 
investigación en condicionamiento operante se ha encargado de estudiar los 
principios que pueden predecir cómo se producen este tipo de respuestas que 
no son evocadas por estímulos. Por tanto, en el presente capítulo se tratará 
de explicar en qué consiste el condicionamiento instrumental u operante, las 
variables que intervienen en su desarrollo, así como las relaciones entre ellas. 


1. ANTECEDENTES HISTÓRICOS 


Para comprender los orígenes de la psicología del aprendizaje en gene- 
ral, y del condicionamiento operante en particular, es preciso tener presen- 
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tes las condiciones históricas que lo hicieron posible. Como ya planteamos 
en el primer capítulo (Introducción), una de las principales influencias 
para el análisis experimental de la conducta desde el punto de vista del 
condicionamiento operante es la teoría de la evolución de Darwin. Desde 
este punto de vista, los dos postulados principales de su teoría (variación 
y selección), en cuanto a la manifestación de las características heredadas 
en los organismos, podrían aplicarse también al comportamiento, ya que 
del mismo modo éste es variable. En su obra The Behavior of Organisms 
(Skinner, 1938) es donde plantea Skinner este tipo de mecanismo selec- 
cionador en relación con la conducta. Los acontecimientos ambientales 
funcionarían en este caso como elementos seleccionadores equivalentes a 
los propuestos por Darwin, es decir, entre la variabilidad de las conductas 
existen respuestas que predominan en determinadas situaciones y momen- 
tos concretos. En el caso del condicionamiento operante, el reforzador 
actuaría como elemento seleccionador de las respuestas más apropiadas en 
una determinada situación. Así, los procesos de reforzamiento hacen más 
probable la aparición de una conducta en un tipo particular de circuns- 
tancias a la vez que hacen menos probable su aparición en otro tipo de 
circunstancias. 


1.1. Thorndike y la Ley del Efecto 


El abordaje científico del condicionamiento instrumental comienza 
con los trabajos de Thorndike. Las aportaciones de Edward Lee Thorndike 
(1874-1949) a la psicología del aprendizaje tienen que ver tanto con su acer- 
camiento teórico como metodológico al estudio de la investigación animal. 
Es considerado como el primer científico que estudió la conducta operante, 
aunque él lo llamó aprendizaje por ensayo y error (Thorndike, 1898). El con- 
ductismo de Watson centró su atención en los reflejos condicionados foca- 
lizando el análisis en los eventos que preceden a la respuesta, aproxima- 
ción conocida como paradigma E-R. Sin embargo, el interés de Thorndike 
se centró en cómo los aciertos y fracasos afectaban a la conducta de los 
organismos. Para este autor, el aprendizaje ocurre porque se fortalecen las 
conexiones que se forman entre los estímulos y las respuestas cuando dan 
lugar a un estado de satisfacción para el animal. Esta aproximación fue 
denominada por él mismo como conexionismo y estaría también encuadra- 
da dentro de lo que se conoce como paradigma E-R. 
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En sus experimentos más conocidos, Thorndike utilizó gatos como 
sujetos. Colocaba los animales en diferentes «cajas problema», artilugios 
que consistían en una especie de jaula de la que los animales podían salir 
activando algún tipo de resorte desde su interior (Figura 4.1). Cuando el 
gato accionaba dicho mecanismo la puerta de la caja se abría y, al salir, el 
investigador le entregaba cierta cantidad de comida. 


1). 


Figura 4.1. Caja Problema utilizada por Thorndike en sus experimentos. 


La primera vez que los animales eran introducidos en la caja problema 
tardaban un tiempo considerable en descubrir y poner en marcha el meca- 
nismo que abría la puerta y salir de la caja. En esos primeros intentos, el 
sujeto se movía por la caja de forma aparentemente azarosa e iba exploran- 
do distintos puntos, hasta que en un determinado momento por casualidad 
activaba el mecanismo de apertura. Según transcurrían los ensayos en los 
que el sujeto repetía la tarea, el tiempo que empleaba en accionar el meca- 
nismo y, por tanto, el tiempo que tardaba en salir de la caja era mucho 
menor. Como vemos, la medida que Thorndike utilizó para la evaluación 
de la ejecución del aprendizaje era la latencia de escape, definida como el 
tiempo que pasa desde que comienza el ensayo hasta que el sujeto consigue 
salir de la caja y recibir el reforzador programado. Según sus observacio- 
nes, la latencia de escape disminuía de forma muy notable a lo largo de 
los ensayos. La figura 4.2 muestra los resultados de un experimento típico: 
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como se puede observar en la figura, a lo largo de los ensayos el animal tar- 
daba menos tiempo en accionar el mecanismo y salir de la caja problema. 


Figura 4.2. En la figura se 
muestran los resultados 
1507 obtenidos en un animal tipo 
utilizado por Thorndike 
en sus experimentos. El 
eje de abscisas representa 
1007 el número de ensayos y el 
eje de ordenadas el tiempo 
que tardaban (latencia) los 
animales en descubrir el 
mecanismo que abría la caja 
problema. Se puede ver con 
claridad cómo el animal en 
los primeros ensayos emplea 
1 10 20 más tiempo que en los 
Ensayos ensayos sucesivos. (Adaptado 
de Thorndike, 1898). 
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Latencia de escape (segundos) 


A partir de los resultados obtenidos mediante este procedimiento, 
Thorndike estableció que la entrega de comida fortalecía la conexión entre 
la situación (en este caso los estímulos situados en el entorno de la caja) y 
la respuesta del animal, lo denominó Ley del Efecto: 


«De las muchas respuestas dadas en la misma situación, las que vayan 
acompañadas o inmediatamente seguidas de satisfacción para el animal, en 
igualdad de condiciones, se conectarán más firmemente con la situación; de 
manera que cuando ésta vuelva a presentarse, volverán a presentarse con 
gran probabilidad» 


EDwARD L. THORNDIKE, 1911 (pág. 244) 


De este modo, Thorndike da una explicación sencilla a este tipo de 
aprendizajes. Cuando en una determinada situación una conducta va 
seguida de algo agradable para el animal, al volver de nuevo a esa misma 
situación será más probable que la conducta se vuelva a repetir. Así, desa- 
rrolló un sistema de aprendizaje basado en una concepción hedonista: las 
conductas cuyo resultado fuese algo placentero serían fortalecidas y las 
conductas cuyo resultado fuese algo desagradable serían eliminadas. 


162 


PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE 


1.2. El análisis experimental del comportamiento de Skinner 


Burrhus Frederic Skinner (1904-1990) ha sido, si no el investigador más 
importante, el principal responsable del aumento del interés en relación con 
la problemática del reforzamiento. Además de realizar una extensa investi- 
gación sobre los principales fundamentos del condicionamiento operante, su 
trabajo académico dio lugar a la formación de un gran número de investiga- 
dores que siguieron desarrollando de forma muy intensa estos principios. En 
The Behavior of Organisms (1938) desarrolla la idea de que los reflejos podrían 
ser estudiados como conducta más que como un reflejo del sistema nervioso o 
de la mente: es aquí donde ya Skinner distingue entre el condicionamiento de 
los reflejos de Pavlov y el tipo de aprendizaje que había propuesto Thorndike, 
lo que le llevó a formular que la conducta se regula tanto por el condiciona- 
miento de los reflejos o condicionamiento respondiente como por el operante. 
A su vez, mientras Thorndike trataba de explicar su aprendizaje por ensayo y 
error mediante asociaciones de «naturaleza interna», Skinner se centró en las 
relaciones funcionales entre la conducta y sus consecuencias. Para él, tanto 
el condicionamiento operante como el respondiente debían sólo prestar aten- 
ción al estudio de las relaciones entre los eventos observables y la conducta. 


Para describir los procedimientos que dan lugar al reforzamiento de 
conductas utilizó los términos condicionamiento operante y condiciona- 
miento instrumental. El término operante refleja la capacidad que tiene el 
individuo para operar sobre su ambiente, mientras que el término instru- 
mental tiene en cuenta el hecho de que la conducta del sujeto es el instru- 
mento para obtener el reforzador. La innovación técnica más importante 
que introdujo Skinner con respecto a Thorndike fue utilizar en sus experi- 
mentos una respuesta que el sujeto podía ejecutar repetidamente sin inter- 
vención del experimentador. En el caso de los experimentos con ratas esta 
respuesta fue la presión de palanca (Figura 4.3), mientras que en los experi- 
mentos con palomas utilizó el picoteo del animal sobre una tecla. Este tipo 
de procedimientos experimentales son conocidos como de operante libre 
para distinguirlos de los de ensayo discreto que utilizaba Thorndike en sus 
trabajos. En ellos, la respuesta puede ocurrir en cualquier momento y de 
forma repetida mientas el sujeto permanezca en la caja de condicionamien- 
to. La variable dependiente medida y analizada en este modelo es la tasa de 
respuesta o número de respuestas emitidas por unidad de tiempo, en lugar 
de la latencia, utilizada por Thorndike como medida del aprendizaje. 
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Caja de Skinner 
Altavoz Estímulos luminosos Dispensador de comida 


ANN SS SN 
[_] 


Rejilla electrificada Palanca Bolita de comida o “pellet” 


Figura 4.3. Caja de Skinner. 


Antecedentes históricos (Resumen) 


Para entender las leyes y procedimientos del condicionamiento operante hay 
que tener en cuenta la influencia de autores como Thorndike, así como de la 
teoría de la evolución de Darwin en la obra de Skinner. Mediante sus experi- 
mentos Thorndike enunció su conocida Ley del efecto que señala que cuando 
en una determinada situación una conducta va seguida de algo agradable para 
el animal, al volver de nuevo a esa misma situación será más probable que la 
conducta se vuelva a repetir. Skinner, es considerado por muchos como el autor 
más relevante en el estudio del condicionamiento operante. Para Skinner, el 
término operante refleja la capacidad que tiene el individuo para operar sobre 
su ambiente, mientras que el término instrumental tiene en cuenta el hecho de 
que la conducta del sujeto es el instrumento para obtener el reforzador. Además 
de sus teorías, este autor desarrolló la caja de Skinner que posibilita el registro 
de forma continua del comportamiento del animal sin necesidad de interven- 
ción por parte del experimentador. La variable dependiente medida y analizada 
siguiendo este modelo es la tasa de respuesta o número de respuestas emitidas 
por unidad de tiempo, en lugar de la latencia, utilizada por Thorndike como 
medida del aprendizaje. 
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2. DEFINICIÓN DE CONDICIONAMIENTO OPERANTE 


Las leyes del condicionamiento clásico establecidas por Pavlov utiliza- 
ban como base los reflejos. Sin embargo, para muchas de las conductas 
que realizan los organismos complejos no es posible identificar un estímu- 
lo evocador. Es muy fácil especificar el estímulo que produce la salivación 
en el perro, pero es mucho más difícil detallar cuál es el estímulo que 
inicia la conducta de tocar el piano o incluso el de otras conductas más 
simples como que una rata presione una palanca para obtener comida. 
La conducta que ocurrirá en el futuro está determinada principalmente 
por las consecuencias de la conducta pasada y las conductas operantes 
están más relacionadas con lo que sucede después de que ocurran que con 
estímulos que las provoquen, es decir, son más bien el resultado de las 
consecuencias que han tenido en el pasado. Por tanto, estas conductas no 
son elicitadas sino que son emitidas. Por todo esto, fueron necesarios otro 
tipo de principios para explicar el desarrollo y mantenimiento de este tipo 
de comportamientos. 


Por condicionamiento operante entendemos el proceso que da lugar 
a que la probabilidad de una respuesta se vea modificada por sus conse- 
cuencias, es decir, por los efectos que tiene el ambiente sobre ella. Veamos 
esto con el ejemplo más común: un investigador coloca una rata en una 
caja de Skinner en la que dispone de una palanca que está conectada a un 
dispensador de comida. Para este animal el entorno de la caja de Skinner 
con sus dispositivos será las circunstancias o el ambiente. Si la rata, cuando 
está explorando la caja por casualidad presiona la palanca, ésta activará 
el comedero y se liberará una bolita de comida. La liberación de la bolita 
de comida aumenta la probabilidad de que el animal accione de nuevo la 
palanca para conseguir una nueva bolita de comida. Como vemos, el con- 
dicionamiento operante dispone al sujeto en unas circunstancias en las 
que alguna de sus conductas da lugar a la aparición de un evento; como 
consecuencia de la manifestación de este evento, se produce en el sujeto, en 
nuestro caso la rata, un cambio en la probabilidad de la emisión de dicha 
respuesta. El término «operante» se utiliza para caracterizar este tipo de 
condicionamiento porque, y a diferencia del «condicionamiento clásico», el 
sujeto interviene u «opera» en el medio, lo modifica a la vez que este modifi- 
ca el organismo. En estos casos si el resultado de dicho comportamiento es 
beneficioso para el animal la conducta se fortalecerá, siendo más probable 
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que se emita de nuevo en circunstancias parecidas, sin embargo, si el resul- 
tado de la conducta es perjudicial, dicha conducta tenderá a desaparecer 
del repertorio de conductas del sujeto. Así, podemos decir de forma general 
que con el condicionamiento operante, los organismos aprenden a obtener 
consecuencias favorables y a eliminar consecuencias desfavorables del 
ambiente. Este tipo de condicionamiento es tan poderoso que los sujetos no 
sólo aprenden a responder ante una nueva circunstancia con una respuesta 
que formaba parte de su repertorio anterior, sino que además puede dar 
lugar a la aparición de respuestas nuevas. 


Ejemplo 


Estamos situados delan- 
te de una máquina 
expendedora de bebidas. 
Una luz encendida al 
lado del botón que accio- 
na la entrega de la bebi- 
da señala que la bebida 
está disponible. Cuando 
la luz está encendida, si 
introducimos la moneda 
y apretamos el botón la 
máquina nos entregará 
la bebida seleccionada. 
Sin embargo, si intro- 
ducimos la moneda y 
pulsamos el botón con 
la luz apagada no podre- 
mos obtener la bebida. 
Bajo estas condiciones 
aprendemos que sólo 
podremos obtener la 
bebida deseada después 
de introducir la moneda 
pulsando el botón si la 
luz está encendida. En 
este caso decimos que la 
luz actúa como estímulo 
discriminativo. 
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2.1. La contingencia de tres términos 


Para adentrarnos en el estudio del condicio- 
namiento operante es necesario conocer una 
serie de conceptos y términos que nos permi- 
tan establecer los procedimientos utilizados en 
estos estudios, así como poder asimilar poste- 
riormente las teorías surgidas a partir de estas 
investigaciones. 


En el condicionamiento operante se suele 
mantener que existe una contingencia entre la 
respuesta y el reforzador, es decir, la consecuen- 
cia está relacionada con la presentación de la 
respuesta. Sin embargo, la conducta operante 
puede ponerse bajo el control de los estímulos 
antecedentes y, la descripción de la conducta 
operante requiere habitualmente de tres térmi- 
nos elementales y sus interrelaciones funciona- 
les. Estos tres términos fundamentales son el 
estímulo discriminativo, la respuesta y la conse- 
cuencia. De este modo la contingencia se rede- 
fine como: en presencia de un estímulo espe- 
cífico, el reforzador se presentará si y solo si la 
respuesta operante sucede. La contingencia de 
tres términos constituye la unidad fundamental 
de análisis en el estudio de la conducta operante. 


PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE 


2.1.1. El estímulo discriminativo 


La conducta no se compone siempre de 
respuestas discretas sino que, como señalamos 
al establecer la contingencia de tres términos, 
la deberíamos considerar como la ejecución 
que ocurre después de un estímulo que en un 
momento determinado tiene como resultado 
una consecuencia específica. Esto nos viene a 
señalar que los estímulos antecedentes también 
tienen una gran importancia en el condicio- 
namiento operante. Sin embargo, las claves 
contextuales juegan un papel bastante diferente 
que en el condicionamiento clásico. Estos estí- 
mulos, en el caso del condicionamiento operan- 
te, reciben el nombre de estímulos discrimina- 
tivos (Eds). En el condicionamiento operante 
estos eventos no provocan la aparición de la 
respuesta sino que señalan la ocasión para que 
si la conducta se presenta sea seguida por una 
consecuencia, es decir, un estímulo, en prin- 
cipio neutro, puede indicar que una respuesta 
puede llevar a la aparición de la consecuencia, 
es decir, indica si el reforzador está disponible 
y, por tanto, informa al sujeto de cuándo ha de 
responder. El reforzamiento diferencial implica 
reforzar una operante en una situación pero no 
en otra, pero aunque la probabilidad de emitir 
una operante en presencia de un Ed puede ser 
muy alta, esto significa que ese estímulo ejerce 
un control sobre esa respuesta, pero no que el 
Ed provoque la respuesta. 


Las consecuencias de las respuestas ope- 
rantes establecen el control que ejercen los 


Ejemplo 


Una respuesta puede 
estar controlada por un 
Ed y un EA. Pensemos 
en una máquina dispen- 
sadora de bebidas en la 
que introducimos una 
moneda para comprar 
un refresco. Una luz 
verde nos indica que el 
refresco que queremos 
seleccionar está dispo- 
nible y una luz roja nos 
indica que está agotado. 
La respuesta operante 
en este caso es apretar 
el botón de selección de 
la bebida. Como es fácil 
imaginar, la probabili- 
dad de que pulsemos el 
botón para obtener la 
bebida con la luz verde 
encendida será mucho 
más alta que la proba- 
bilidad de que pulsemos 
ese mismo botón si la 
luz roja está encendida. 
En este caso la luz verde 
actúa como un Ed por- 
que señala la disponibi- 
lidad del reforzador en 
el caso de que se emita 
la respuesta operante y 
la luz roja como un EA 
porque señala la ausen- 
cia del reforzador en el 
caso de que la operante 
ocurra. 


estímulos discriminativos. Cuando un Ed es seguido de una respuesta cuya 
consecuencia es apetitiva esa respuesta se ve reforzada y ello hace que la 
probabilidad de que la operante ocurra aumente si en una ocasión posterior 
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dicho estímulo está presente. Cuando una operante no es seguida de una 
consecuencia reforzante, el estímulo que precede la respuesta se conoce 
como estímulo delta (EA). En presencia de un EA la probabilidad de emi- 
tir la operante disminuye. El término control por el estímulo se refiere a 
cómo los estímulos que preceden una conducta pueden controlar la ocu- 
rrencia de esa conducta. 


2.1.2. La respuesta 


En el caso del condicionamiento instrumental, la respuesta operante 
se define por los efectos que provoca en el ambiente. Cuando una respues- 
ta produce el mismo efecto que otra respuesta estaremos hablando de la 
misma operante. La operante se define por su función y no por su forma o 
topografía, es decir, las respuestas que producen los mismos efectos sobre 
el ambiente son ejemplos de la misma operante. En el caso de la presión 
de palanca que ejercen las ratas para conseguir comida en una caja de 
Skinner, los animales pueden presionar la palanca con el morro o con la 
cola, las dos respuestas producen los mismos efectos (que se libere una 
bolita de comida) y, por ello, son ejemplos de una misma operante. Como 
señaló Skinner: 


«El término enfatiza el hecho de que la conducta opera sobre el ambien- 
te para generar consecuencias. Las consecuencias definen las propiedades 
en función de las cuales las respuestas se consideran similares. El término 
se usará como adjetivo (conducta operante) y como sustantivo que designa 
la conducta definida por una consecuencia dada» 


SKINNER, 1953 (p. 65) 


Cuando hablamos de la conducta, ésta puede ser muy compleja y adop- 
tar distintas formas (topografía) teniendo la misma función. Un ejemplo 
puede ser ponernos un gorro para no tener frío en la cabeza. El gorro nos 
lo podemos poner con el brazo izquierdo o el brazo derecho, desde delante 
de la cabeza o desde atrás y todas estas conductas formarían parte de la 
misma clase de respuesta. Cuando hablamos de clase de respuesta nos 
estamos refiriendo a cualquier forma de ejecutar una conducta con una 
función similar, en nuestro ejemplo evitar tener frío en la cabeza. Estas 
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respuestas pueden ser físicamente parecidas pero no siempre tiene que ser 
así. Un ejemplo de ello es cuando pedimos verbalmente que alguien haga 
algo o cuando lo hacemos nosotros. Ambas conductas formarían parte de la 
misma clase de respuesta aunque la forma o topografía de estas respuestas 
es muy diferente. 


2.1.3. El reforzador 


Para el condicionamiento instrumental, el término reforzador debe dar 
cabida a la gran variedad de estímulos y eventos que poseen la capacidad 
de reforzamiento de una conducta. De este modo el reforzador no puede 
definirse simplemente según sus características físicas sino más bien en 
función de los efectos que éste tiene sobre la conducta. Según esta defini- 
ción funcional, un reforzador es cualquier suceso o evento que al hacerse 
contingente con una respuesta cambia la probabilidad de aparición de esa 
respuesta en el futuro. Sobre esta cuestión veremos una discusión más 
específica en capítulos posteriores. 


2.1.3.1. Reforzamiento condicionado 


Es importante tener en cuenta en relación con el análisis de la conducta 
humana que muy frecuentemente no es controlada por reforzadores prima- 
rios como puede ser la comida, sino por eventos cuyos efectos dependen de la 
historia de reforzamiento. Los elogios o cumplidos que nos hacen, las críticas 
o juicios que hacen sobre nuestro comportamiento o, el dinero, son conse- 
cuencias que pueden fortalecer o debilitar la ocurrencia de una conducta. 
Este tipo de eventos adquieren los efectos que producen debido a las expe- 
riencias que la gente ha tenido con ellos a lo largo de sus vidas y ello hace que 
la misma consecuencia pueda tener efectos distintos dependiendo de la expe- 
riencia personal del sujeto. Un ejemplo de ello son las recompensas moneta- 
rias, para unas personas el dinero puede ser muy importante pero para otras 
lo es menos, aunque en las sociedades occidentales sea bastante importante 
para casi todos, ya que la comida y la comodidad en este caso dependen de 
él. Ello me hace recordar una película de Woody Allen en la que uno de los 
personajes le decía a otro «yo no canto por dinero, canto por placer» y el otro 
personaje al momento le contestaba «pero el dinero da mucho placer». 
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Como venimos señalando, un reforzador puede ser definido como un 
evento cuya entrega aumenta la frecuencia de una respuesta con la que es 
contingente. El componente crítico es la influencia en la tasa de respuesta, 
no lo que el estímulo o evento es en realidad. En el caso del condiciona- 
miento operante, de forma similar al condicionamiento clásico de segundo 
orden se puede producir el fenómeno del reforzamiento condicionado, 
también llamado reforzamiento secundario. En este caso, un estímulo o 
evento que originalmente no es reforzante, como puede ser una luz o un 
sonido, puede adquirir capacidad de reforzamiento mediante la asociación 
repetida con otro que era previamente reforzante. Hablamos, entonces, de 
reforzamiento condicionado cuando una conducta se fortalece debido a 
sucesos que tienen un efecto que depende de la historia de reforzamiento 
de ese sujeto. El aspecto central aquí implica una correspondencia entre 
un evento arbitrario y un reforzador que es efectivo en el momento actual. 
Cuando este evento arbitrario es capaz de aumentar la frecuencia o la tasa 
de una respuesta, a este tipo de reforzamiento lo denominamos reforza- 
miento secundario o reforzamiento condicionado. 


Cuando estos procedimientos para el estudio del reforzamiento condi- 
cionado se llevan a cabo en el laboratorio los resultados encontrados en los 
experimentos son en muchos casos contradictorios. Uno de los problemas 
más habituales es que cuando entran en juego los procesos de extinción, los 
reforzadores condicionados pueden perder su efectividad en poco tiempo y 
mantener su capacidad reforzadora durante pocas respuestas (ver Kelleher 
y Gollub, 1962; Myers, 1958). Sin embargo, otros investigadores han demos- 
trado que el reforzamiento condicionado que proporciona la luz situada 
junto al comedero de la caja de Skinner es efectivo para mantener el picoteo 
incluso en situaciones experimentales en los que los animales tienen que 
picotear una tecla hasta 300 veces para que la luz se encienda (Alferink, 
Crossman y Cheney, 1973). Aunque hasta el momento la investigación de 
laboratorio no ha arrojado resultados del todo concluyentes en cuanto a 
la duración del reforzamiento condicionado, la experiencia con el refor- 
zamiento condicionado en la vida diaria sugiere que eventos de este tipo 
pueden reforzar gran cantidad de conductas sin extinguirse. La conducta 
de los animales está conformada por secuencias de conducta complejas que 
son mantenidas en muchos casos por reforzamiento condicionado y, esto es 
bastante evidente en la especie humana, en la que multitud de conductas se 
mantienen día a día como consecuencia del reforzamiento condicionado. 
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2.2. Aclaraciones 


2.2.1. Reforzador-reforzamiento 


En cuanto a la distinción entre reforzador y reforzamiento, debemos 
tener clara la diferencia entre el evento (el reforzador) y el procedimiento 
o proceso (reforzamiento). Es importante aclarar que el reforzamiento 
produce incrementos en la conducta y los reforzadores son los eventos 
que hacen que el reforzamiento produzca esos efectos. Cuando el procedi- 
miento disminuye la conducta se denomina castigo y los eventos utilizados 
cuando la conducta se presenta son de naturaleza aversiva. En la lengua 
inglesa existe el término punisher para referirse a estos eventos cuya tra- 
ducción al español sería «castigador», aunque este termino no se suele uti- 
lizar en los manuales de Psicología del Aprendizaje editados en castellano. 
En el contexto del control aversivo, utilizar el término reforzador negativo 
puede ser confuso, si no incorrecto, para referirse a eventos aversivos. La 
utilización del término consecuencia es menos confusa, por lo que en estos 
casos debería utilizarse el concepto consecuencia apetitiva (reforzador) y 
consecuencia aversiva o punitiva (castigo). 


2.2.2. Respuesta discreta-operante libre 


Algunos de los procedimientos utilizados en los estudios sobre con- 
dicionamiento operante en la actualidad son similares a los empleados 
por Thorndike en sus experimentos. En estos experimentos los ensayos 
comienzan en el momento en el que el sujeto es dispuesto en el aparato y 
éste puede únicamente emitir, y el investigador registrar, una respuesta en 
cada ensayo. En estos procedimientos, denominados de ensayo discreto, la 
variable dependiente suele ser la latencia de respuesta y el experimentador 
tiene que intervenir para ubicar al animal en el aparato al final y al comien- 
zo de cada ensayo. Por ejemplo, en un laberinto en T como el mostrado en 
la figura 4.4, el experimentador coloca la rata en el brazo de salida y recoge 
al animal en el momento en que obtiene el reforzador en el brazo en el que 
haya sido dispuesto. 


Los procedimientos de ensayo discreto requieren mucho trabajo por 
parte del experimentador y consumen gran cantidad de tiempo, además, en 
un día solo se pueden llevar a cabo un pequeño número de ensayos. Como 
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Salida 


Figura 4.4. Laberinto en T. 


ya señalamos anteriormente, una de las principales innovaciones introdu- 
cidas por Skinner en la investigación del aprendizaje fue implementar la 
posibilidad de que el sujeto pueda emitir la respuesta de forma repetida sin 
la intervención del investigador utilizando una caja de Skinner típica. De 
forma tradicional en este tipo de investigación se utiliza la tasa de presión 
de palanca o tasa de respuesta como variable dependiente para la medida 
del aprendizaje. Estos procedimientos se conocen como procedimientos de 
operante libre y, a diferencia de los de ensayo discreto anteriormente des- 
critos, los sujetos pueden emitir la respuesta de forma constante sin que el 
investigador tenga que manipular al sujeto entre ensayo y ensayo. 


2.2.3. Topografía-función 


La conducta se puede clasificar en términos estructurales o funcionales. 
Desde el punto de vista estructural, el análisis de la conducta pone el punto 
de mira en la topografía o forma de la respuesta y, así, cuando hablamos 
de la topografía nos estamos refiriendo a las propiedades o características 
físicas de una respuesta, entendiendo ésta no como un movimiento discreto 
de un músculo sino como una secuencia de movimientos que ocurren en 
el tiempo. Un ejemplo de ello serían los movimientos que realizamos con 
el brazo para empujar una puerta: podemos hacerlo con un movimiento 
del codo, lo podemos hacer con la mano o incluso darle una patada con la 
pierna, además estos movimientos los podemos hacer más deprisa o más 
despacio. En este caso, la respuesta «empujar la puerta» vemos que puede 
tener diferentes formas. Desde la óptica del condicionamiento operante la 
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topografía de respuesta está relacionada con las contingencias de reforza- 
miento, es decir, las consecuencias de una respuesta pueden modificar su 
forma. Por ejemplo, es menos probable que empujemos una puerta con la 
pierna en una situación socialmente comprometida y más probable que lo 
hagamos con la mano, o que si tenemos prisa la empujemos más deprisa 
que si no la tenemos, o si queremos evitar hacer ruido. Por estos motivos, 
en términos generales, la topografía es una función de las contingencias de 
reforzamiento. 


Sin embargo, cuando hablamos de la función nos referimos a las rela- 
ciones de la respuesta con los estímulos antecedentes y las consecuencias 
de la misma. Desde esta aproximación, la conducta es la ejecución de una 
respuesta que sigue a un estímulo específico y que tiene como resultado 
algún tipo de consecuencia. De esta forma, dos respuestas con la misma 
topografía pueden tener una función diferente y dos respuestas con dis- 
tinta topografía pueden tener la misma función. Siguiendo el ejemplo 
anterior, podemos empujar una puerta con la mano o la podemos empu- 
jar con el codo y en ambos caso la función de la respuesta es «empujar 
la puerta». 


El control que ejerce un reforzador sobre una conducta operante puede 
estar limitado por la topografía de la respuesta. Por ejemplo, la comida 
como reforzador ejerce poco control en la conducta de lavado de la cara, 
rascado del cuerpo o el marcado de territorio en los hamsters, mientras que 
sobre cavar, escarbar y alzarse sobre las patas traseras ejerce un control 
muy preciso (Shettleworth, 1975). En otros casos, las relaciones funciona- 
les entre diferentes topografías de respuesta son similares entre ellas y se 
observan diferencias cuantitativas más que cualitativas. En las palomas, 
a la hora de ingerir líquidos o sólidos, la topografía de los movimientos 
de la mandíbula es bastante característica y estereotipada: cuando beben, 
su topografía se caracteriza por tasas (de 4 a 7 aperturas por segundo) 
y aperturas del pico con valores relativamente constantes (de 1 a 3 mm) 
(Klein, LaMon y Zeigler, 1983). Sin embargo, cuando comen, los picoteos 
se producen, de forma general, sobre tres por segundo, y las aperturas son 
proporcionales al tamaño del objeto ingerido (Bermejo, Allan, Houben, 
Deich y Zeigler, 1989). Estas cuestiones nos ponen también de relieve las 
limitaciones que puede imponer la biología al condicionamiento de algunas 
respuestas, cuestión que veremos en mayor profundidad en los siguientes 
apartados. 
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2.2.4. Instancia de respuesta y clase de respuesta (unidad conductual) 


Ya Skinner (1935) describió las relaciones conductuales como la corre- 
lación entre una clase de estímulo y una clase de respuesta. Desde esta pers- 
pectiva estamos entendiendo la conducta desde un punto de vista molar. La 
conducta operante se define por las relaciones funcionales entre clases de 
respuestas y las consecuencias ambientales. Una clase de respuesta se refie- 
re a todas las formas en las que la ejecución de la respuesta puede llevar a 
una función similar. Sin embargo, una definición completa de la conducta 
Operante necesita diferenciar entre lo que es una clase de respuestas y lo 
que son respuestas particulares o instancias de respuesta (punto de vista 
molecular). Una instancia de respuesta es la unidad mínima de conducta 
y se refiere a la ocurrencia particular y específica de una respuesta teniendo 
en cuenta además su topografía. Así, podemos especificar «la rata presionó 
la palanca de la caja de condicionamiento con la pata delantera derecha 
a las 10:50 p.m.» señalando una instancia de respuesta o utilizar la clase 
«presionar la palanca» independiente del momento concreto en el que ocu- 
rrió la instancia y sin tener en cuenta la topografía. 


2.2.5. Interacciones clásicas y operantes en el control de la conducta 


Cuando se pone en marcha un procedimiento de condicionamiento 
clásico sólo se necesita identificar un estímulo (ED) que provoque una res- 
puesta, por lo general común a la especie a la que pertenece, y presentar 
al sujeto dicho estímulo emparejado con otro (EC), en principio neutro, 
que no provoque esa misma respuesta. Es decir, estaríamos ante un caso 
de aprendizaje relativamente «pasivo», ya que el sujeto sólo necesita ser 
expuesto a los estímulos para que el aprendizaje ocurra. Sin embargo, para 
llevar a cabo un procedimiento de condicionamiento operante, es necesario 
que el sujeto sea «activo», es decir, que emita algún tipo de respuesta. Para 
poder reforzar o castigar una conducta es necesario que la conducta ocurra, 
que se presente con una cierta probabilidad, ya que en ausencia de ella no se 
podrá instaurar una contingencia sobre esa respuesta, es decir, no se podrá 
establecer una relación entre esa conducta y otro acontecimiento ambiental. 
Cuando la probabilidad de ocurrencia de una respuesta es baja, como por 
ejemplo que una paloma picotee una tecla en una caja de Skinner si no lo ha 
hecho previamente, podemos esperar a que ocurra la respuesta por casuali- 
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dad para poder reforzarla, pero esto nos puede 
llevar mucho tiempo. Una de las soluciones 
existentes para hacer aumentar la frecuencia de 
una respuesta de baja ocurrencia y poder apli- 
car una contingencia instrumental sobre ella es 
mediante el automoldeamiento, un procedi- 
miento ya descrito en el Capítulo 2 en relación 
con el condicionamiento clásico. Esta técnica 
consiste en implementar en un primer momento 
un procedimiento de condicionamiento clásico 
excitatorio apetitivo emparejando un estímulo 
inicialmente neutro, como puede ser la ilumina- 
ción de una tecla, con la presentación de comi- 


Ejemplo 


Si vamos caminando por 
la calle antes de la hora 
de comer y pasamos por 
delante de una hambur- 
guesería, el olor que sale 
del local podría actuar 
como un EC que pro- 
voque el que aumente 
nuestra salivación, pero 
a la vez podría actuar 
como un Ed que señala 
la ocasión para entrar y 
pedir una hamburguesa. 


da. La comida en este caso actúa como un El 

que provoca respuestas con diferente topografía en función de la especie, por 
ejemplo en los roedores promueve la manipulación de la comida con las patas 
delanteras y en las palomas el picoteo. La presentación de la comida en el 
momento en el que la tecla está iluminada le confiere a esta última pro- 
piedades de EC y, por tanto, la capacidad de elicitar por sí misma una res- 
puesta similar a la provocada por la comida. Una vez que la luz provoca esa 
respuesta podemos someterla a control operante haciendo que la comida 
sólo se presente si la paloma picotea la tecla. De esta forma la luz, que en 
un principio funcionaba como un EC, se convierte en un estímulo discrimi- 
nativo (Ed) que correlaciona con la presentación del reforzador (comida) 
cuando el animal presiona la palanca (respuesta operante). Distinguir la RC 
de la respuesta operante no es tarea fácil, sin embargo, una vez finalizado el 
procedimiento podríamos decir que empezó siendo una respuesta condicio- 
nada clásicamente y terminó siendo una operante, aunque topográficamen- 
te las respuestas sean indiferenciables. Por estas razones, la iluminación 
de la tecla tiene una doble función: es un Ed en el sentido de que señala 
la ocasión para que la respuesta operante sea reforzada, y actúa como un 
EC porque elicita una conducta condicionada clásicamente. Este ejemplo 
ilustra cómo ciertas respuestas inicialmente condicionadas clásicamente 
pueden posteriormente caer bajo control operante y, por tanto, depender 
del efecto que producen y del estado de privación del sujeto. 


Una de las razones por las que se dan relaciones de interacción entre 
el condicionamiento clásico y el operante es porque los acontecimientos 
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ambientales actúan sobre los sistemas neurofisiológicos de los organismos 
de forma global y no sobre un sistema concreto. Aunque analicemos de 
forma separada las respuestas condicionadas clásicamente de las respues- 
tas operantes, la influencia de estas contingencias tiene lugar sobre todo 
el organismo. Cuando la tasa de una respuesta aumenta por un proceso 
de reforzamiento, el reforzador presentado es contiguo con cualquier otra 
actividad del individuo. Del mismo modo, cuando se presenta un estímulo 
condicionado o un estímulo incondicionado también puede estar ocurrien- 
do algún otro tipo de actividad distinta de la RC en ese momento y que 
pueda ser reforzada. Podríamos argumentar que diferenciar entre el condi- 
cionamiento clásico y el operante es en parte artificial ya que ambos tipos 
de procesos estarían ocurriendo simultáneamente y que la interacción del 
organismo con el ambiente es más complicada que las apreciaciones que 
hacen estos dos modelos. Sin embargo, esta distinción ha sido eminente- 
mente práctica para el desarrollo de la investigación en aprendizaje, ade- 
más, neurobiológicamente se ha sugerido que ambos tipos de aprendizajes 
podrían estar mediados por diferentes mecanismos a nivel celular (Baxter 
y Byrne, 2006; Lorenzetti, Baxter y Byrne, 2011), lo que nos señalaría que 
si el cerebro procesa de forma distinta las asociaciones que se producen en 
ambos tipos de aprendizaje, deberíamos considerarlos como fenómenos 
distintos. Finalmente, es preciso señalar que la diferenciación neurobioló- 
gica de ambos fenómenos es todavía fuente de numerosas discusiones. 


Definición de condicionamiento operante (Resumen) 


Por condicionamiento operante entendemos el proceso que da lugar a que 
la probabilidad de una respuesta se vea modificada por sus consecuencias, es 
decir, por los efectos que tiene el ambiente sobre ella. Si el resultado del com- 
portamiento es beneficioso la conducta se fortalecerá, siendo más probable que 
se emita de nuevo en circunstancias parecidas, sin embargo, si el resultado de 
la conducta es perjudicial, dicha conducta tenderá a desaparecer del repertorio 
de conductas del sujeto. El término «operante» se utiliza para caracterizar este 
tipo de condicionamiento porque, y a diferencia del «condicionamiento clási- 
co», el sujeto interviene u «opera» en el medio. 


La contingencia de tres términos constituye la unidad fundamental de 
análisis en el estudio de la conducta operante y está formada por el estímulo 
discriminativo, la respuesta y la consecuencia. De este modo, sería definida 
como: en presencia de un estímulo específico, el reforzador se presentará si y 
sólo si la respuesta operante sucede. Los estímulos antecedentes, en el caso del 
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condicionamiento operante, reciben el nombre de estímulos discriminativos 
(Eds) cuando señalan que una respuesta será seguida de una consecuencia 
reforzante y estímulos delta (EA) cuando en su presencia la probabilidad de 
aparición de la consecuencia es baja. El término control por el estímulo se 
refiere a cómo los estímulos que preceden una conducta pueden controlar la 
ocurrencia de esa conducta. 


Las respuestas pueden ser definidas por su topografía (forma) o su función. 
Una clase de respuesta denota cualquier forma de ejecutar una conducta con 
una función similar. 


Los reforzadores pueden ser naturales como la comida o el sexo, o de forma 
similar al condicionamiento clásico de segundo orden se puede producir el 
fenómeno del reforzamiento condicionado o reforzamiento secundario. 
En este caso, un estímulo o evento que originalmente no es reforzante puede 
adquirir capacidad de reforzamiento mediante la asociación repetida con otro 
que era previamente reforzante. El automoldeamiento, en el caso del con- 
dicionamiento operante, consiste en implementar en un primer momento un 
procedimiento de condicionamiento clásico excitatorio apetitivo emparejando 
un estímulo inicialmente neutro, como puede ser la iluminación de una tecla, 
con la presentación de comida para producir en el animal un acercamiento a 
la respuesta operante buscada. 


3. PROCEDIMIENTOS BÁSICOS DEL CONDICIONAMIENTO 
OPERANTE 


Una dificultad importante para el estudio científico del comportamiento 
tiene que ver con la familiaridad que tenemos con numerosos hechos acer- 
ca de nuestra conducta, la de los demás o la de otras especies. En muchos 
de estos casos las interpretaciones que se le dan a los hechos están basadas 
en opiniones preconcebidas y esto ha dado lugar a que se genere una gran 
confusión a la hora de establecer explicaciones y predicciones no sesgadas 
sobre la conducta. 


La conducta, además de ser dinámica y modificarse en el tiempo es el 
resultado de muchas variables interrelacionadas que pueden incluso no 
estar presentes en el momento de su análisis. Los fenómenos conductuales 
que tienen un patrón temporal identificable bajo condiciones objetivamen- 
te especificadas y que son reproducibles en diferentes individuos pueden 
ser descritos como procesos conductuales reproducibles (Zimmerman, 
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1963). La comprensión de estos procesos dependerá de la especificación 
exacta de las relaciones temporales entre los eventos que configuran esos 
procesos y de las condiciones bajo las cuales ocurren. Para entender con 
claridad en qué se basan los procedimientos básicos de condicionamiento 
operante es conveniente tener muy claro el concepto de contingencia. 
Como ya se ha explicado en el Capítulo 3 (Mecanismos asociativos y teo- 
rías del condicionamiento clásico) una contingencia es una relación de 
dependencia funcional entre dos componentes de un condicionamiento, 
relación que se establece cuando uno de los componentes correlaciona 
con el otro. En el caso del condicionamiento operante estaremos hablando 
de una contingencia positiva cuando una respuesta es seguida de una 
consecuencia y de contingencia negativa cuando una respuesta elimina 
o previene la aparición de una consecuencia. 


Dependiendo del tipo de contingencia (positiva o negativa) y de la 
naturaleza de las consecuencias (apetitivas o aversivas) se pueden estable- 
cer cuatro procedimientos fundamentales de condicionamiento operante 
(Tabla 4.1). Entre estos cuatro tipos de procedimiento hay que diferenciar 
claramente los encaminados a producir incrementos de conducta (reforza- 
miento positivo, escape y evitación) y los que pretenden producir disminu- 
ciones de conducta (castigo y entrenamiento de omisión). 


Tabla 4.1. Procedimientos fundamentales de condicionamiento operante 


Procedimiento Contingencia Consecuencia Resultado de conducta 
Reforzamiento positivo 
e a da Incremento de la fuerza de la 
(Entrenamiento de Positiva Apetitiva 
respuesta 
recompensa) 
DAS Ñ . Incremento de la fuerza de la 
Escape y evitación Negativa Aversiva 
respuesta 
, e a Disminución de la fuerza de la 
Castigo Positiva Aversiva 
respuesta 
Entrenamiento de A ES Disminución de la fuerza de la 
Dun Negativa Apetitiva 
omisión respuesta 
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3.1 Procedimientos destinados a aumentar conductas: 
Reforzamiento positivo, escape y evitación 


Reforzamiento Positivo (entrenamiento de recompensa): 


El reforzamiento positivo o entrenamiento de recompensa tiene 
lugar en el momento en el que una consecuencia apetitiva se presenta 
de forma contingente a una respuesta y esto tiene como resultado un 
aumento de la fuerza de la respuesta, es decir, la respuesta aumenta su 
intensidad, su frecuencia de aparición en un intervalo de tiempo (tasa de 
respuesta), etc. De esta forma, en el momento en que el sujeto emite la 
respuesta se presenta un evento apetitivo mientras que si la respuesta no 
es emitida no se presenta la consecuencia apetitiva. Estas consecuencias 
apetitivas pueden consistir en reforzadores primarios como son la comida 
o el placer sexual, o reforzadores secundarios como pueden ser los elo- 
gios, el dinero, etc... 


En el caso del entrenamiento en recompensa, en muchos experimentos 
con animales se utiliza como reforzador la entrega de comida. Sin embargo, 
para que la comida tenga propiedades reforzantes el animal tiene que estar 
motivado para obtenerla. Una forma de hacerlo es privando al animal de 
comida y, así, la medida de esa motivación vendrá dada por el porcentaje de 
peso que ha perdido el animal con respecto a su peso ad libitum (comiendo 
libremente). En este punto, el investigador asume, aunque todavía no lo 
sabe, que la comida puede actuar como reforzador. Hay que señalar que 
la reducción del peso del animal en un experimento típico suele ser menos 
severa de lo que parece, ya que para muchos procedimientos una reducción 
del 5% del peso puede ser suficiente. Tengamos en cuenta que ese mismo 
animal en libertad tendría incluso un peso menor que la rata privada de 
comida que estamos manteniendo en las condiciones controladas del labo- 
ratorio. Es decir, cuando las ratas comen con libertad la comida que tienen 
a su disposición, se suelen hacer obesas. Además, distintos estudios han 
demostrado que la restricción de calorías aumenta la longevidad y mejo- 
ra la salud de los roedores (Masoro, 1992, 2005; Weindruch, 1989, 1996; 
Weindruch, Walford, Fligiel y Guthrie, 1986). 


Otro problema que debemos tener en cuenta es que en el reportorio 


natural del animal exista la respuesta que pretendemos medir. En muchos 
casos nuestra investigación necesita que el animal emita una respuesta 
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que no presenta o no suele presentar en su medio natural, por ejemplo, 
que presione una palanca situada en el interior de una caja de Skinner. En 
estos casos el investigador en lugar de esperar a que el animal presente la 
respuesta «por casualidad» puede emplear el moldeamiento o método de 
aproximaciones sucesivas para conseguir establecer la respuesta. Este 
procedimiento implica reforzar respuestas o conductas que se vayan apro- 
ximando a la respuesta final exigida (presionar la palanca) y dejar de refor- 
zarlas, es decir extinguirlas, una vez conseguimos respuestas más parecidas 
a la respuesta objetivo. Para ello, en un primer momento, entregaremos a la 
rata una bolita de comida en el comedero de la caja simplemente por per- 
manecer en el lado de la caja donde se encuentra la palanca. Una vez haya 
aumentado la probabilidad de esa conducta reforzaremos los acercamien- 
tos a la palanca y dejaremos de reforzar el que simplemente esté en ese lado 
de la caja. Finalmente, sólo reforzaremos que el animal presione la palanca 
dejando de reforzar cualquier otra conducta y así obtendremos finalmente 
la respuesta que nos interesaba que el animal emitiese. Una vez establecida 
la respuesta ya podemos utilizar cualquier reforzador para modificar la tasa 
de respuesta del sujeto mediante el entrenamiento de recompensa. 


Escape y Evitación 


Cuando el resultado de una respuesta operante consiste en la elimi- 
nación o detención de un evento de naturaleza aversiva y, a su vez, este 
procedimiento tiene como resultado un aumento en la fuerza de respuesta 
estamos hablando del procedimiento de escape. Una persona se puede 
«escapar» de una sala de conferencias porque lo que están contando no le 
interesa o le está aburriendo. Asimismo, cuando en un procedimiento simi- 
lar una respuesta impide que se presente un suceso de naturaleza aversiva 
nos estamos refiriendo al procedimiento de evitación. Siguiendo el ejemplo 
de la conferencia, podríamos pensar que si esa misma persona conociese 
previamente al ponente podría «evitar» presentarse en la sala. En el labo- 
ratorio es habitual que ambos procedimientos funcionen de manera con- 
junta y que en un principio los animales aprendan una respuesta de escape 
y posteriormente una respuesta de evitación. Por ejemplo, si una rata en 
una caja de Skinner puede presionar una palanca para evitar una pequeña 
descarga en sus patas, en los primeros momentos el animal presionará la 
palanca para escapar de la descarga, es decir recibe la descarga y cuando 
presiona la palanca detiene la descarga, pero una vez que aprenda este 
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comportamiento la rata podrá presionar continuamente la palanca para 
evitar la descarga. Como se señala en la tabla 4.1, en estos casos, la contin- 
gencia entre la respuesta y la consecuencia es negativa y la consecuencia 
que sigue la respuesta es de carácter aversivo. Este procedimiento es, en 
muchas ocasiones, confundido con el castigo, pero en todo caso y como 
hemos visto a partir de la tabla implica condiciones completamente dife- 
rentes a las que definen el castigo. El escape y la evitación son conocidos 
como procedimientos de reforzamiento negativo dadas las características 
de la contingencia establecida. Tanto en un caso como en el otro, una con- 
tingencia negativa (eliminación de un suceso) da lugar al fortalecimiento o 
incremento de la intensidad o de la tasa de una respuesta. 


3.2 Procedimientos destinados a disminuir conductas: 
castigo y entrenamiento de omisión 


El castigo o castigo positivo es el procedimiento que tiene como resul- 
tado una disminución en la fuerza de la respuesta cuando se aplica una 
consecuencia aversiva contingente a la respuesta. Es decir, si un sujeto 
emite la respuesta operante, se presenta la consecuencia aversiva, mientras 
que si la respuesta no ocurre, no se presenta la consecuencia aversiva. En 
el análisis funcional de la conducta, el castigo se define por su función y 
esto implica que cuando el castigo no tiene efectos en la conducta se con- 
sidera que éste no ha ocurrido. Un ejemplo de castigo es infligir un daño 
físico cuando un sujeto presenta una conducta inadecuada; las burlas o 
humillaciones también constituirían una forma de castigo. En el laborato- 
rio lo más habitual es utilizar una pequeña descarga eléctrica en las patas 
del animal cuando presenta la conducta objetivo, que suele ser la presión 
de una palanca en el caso de las ratas y el picoteo de una tecla cuando se 
utilizan palomas como sujetos. Tenemos que señalar aquí que para poder 
castigar una respuesta antes ha tenido que ser reforzada, es decir, si pre- 
tendemos castigar la presión de una palanca, para poder observar los efec- 
tos del castigo previamente debemos hacer que la respuesta de presión de 
palanca ocurra con cierta probabilidad y para ello debemos llevar a cabo 
anteriormente un entrenamiento de recompensa de la presión de la palan- 
ca. De esta forma el castigo consistiría en la disminución de una respuesta 
previamente reforzada debido a la imposición de una contingencia de tipo 
aversivo sobre dicha respuesta. 
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Entrenamiento de omisión o castigo negativo 


El entrenamiento de omisión o castigo negativo es el procedimiento 
de condicionamiento operante que tiene como resultado una disminución 
en la fuerza de la respuesta cuando se elimina o previene una consecuencia 
apetitiva de forma contingente a la respuesta. Esto quiere decir que si un 
sujeto emite la respuesta operante, su respuesta tendrá como consecuencia 
la no presentación de un evento apetitivo que se presentaría en circunstan- 
cias similares si no se produjese dicha respuesta. De este modo, el castigo 
negativo implica no entregar una recompensa cuando se presenta una con- 
ducta no deseada. Un ejemplo clásico sería apagar la televisión cuando un 
niño está tirando cosas en casa. Los eventos o circunstancias eliminadas 
en el caso del castigo negativo se asume que son eventos reforzantes (ver 
la televisión, hablar con los compañeros en clase, comer caramelos o la 
atención obtenida), ¿qué opina el lector del rechazo sexual hacia la pareja 
cuando ha manifestado conductas no deseadas hacia el otro? En este caso 
estaríamos hablando también de castigo negativo. 


Efectos colaterales de los procedimientos aversivos 


El control aversivo es un concepto que por lo general se refiere a los 
procedimientos de condicionamiento de escape, evitación y castigo. Existen 
razones éticas muy claras en contra de la utilización de contingencias aver- 
sivas para promover cambios en la conducta. Además de las razones éticas, 
los efectos colaterales de este tipo de procedimientos también desaconsejan 
su uso. Ya el mismo Skinner desaconsejaba de forma insistente la utiliza- 
ción de los procedimientos aversivos para producir cambios conductuales 
(Skinner, 1953, 1971). En su libro Ciencia y conducta humana, en el capí- 
tulo XII dedicado al castigo, comienza con un epígrafe titulado Una técnica 
cuestionable, donde señala: «El castigo es la técnica más comúnmente utili- 
zada en la vida moderna. El patrón es familiar: si un hombre no se comporta 
como deseas, golpéalo; si un niño se porta mal, dale un cachete; si la gente de 
un país se comporta mal, bombardéala ». 


Para él, los procedimientos aversivos no son una forma fiable de hacer 
que disminuyan las conductas. En primer lugar porque la estimulación 
aversiva es posible que tenga a su vez efectos emocionales que, aunque 
en un primer momento eliminen o disminuyan la conducta indeseable no 
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impiden que en el futuro vuelvan a ocurrir una vez que la activación emo- 
cional se haya disipado. En segundo lugar, la estimulación aversiva puede 
dar lugar a que se asocie con otros estímulos presentes en esa situación y 
que puedan dar lugar a que se inhiban las conductas deseables. Un niño 
puede utilizar estrategias para evitar el castigo y manifestar las mismas 
conductas en entornos donde no estén presentes las contingencias aversi- 
vas. Finalmente, las personas y los animales cuando son castigados asocian 
el castigo con quien lo ejecuta más que con la conducta indeseada y, esto 
puede dar lugar a que, en el futuro, evite y rechace a quien lo castiga en 
lugar de cambiar su comportamiento. 


3.3. La extinción en el reforzamiento positivo 


La extinción en el condicionamiento operante es el procedimiento 
mediante el cual una respuesta que previamente se reforzaba se deja de 
reforzar, es decir, se deja de presentar la consecuencia que se presentaba 
anteriormente cuando la respuesta operante era emitida. Además de enten- 
der la extinción como un procedimiento, también tenemos que considerar 
que la extinción es el proceso que da lugar a una disminución de la frecuen- 
cia O la intensidad de la respuesta causada por la ausencia del reforzador 
y a una disminución gradual de su ejecución. Los efectos de la extinción 
sobre los procedimientos aversivos se explicarán más adelante en el capítu- 
lo dedicado al control aversivo. 


Como hemos señalado, el resultado del procedimiento de extinción es una 
disminución de la intensidad o la tasa de respuesta, aun así, tenemos que 
tener en cuenta que la conducta no se elimina de forma absoluta. Si después 
de programar cierto número de sesiones de extinción dejamos pasar cierto 
tiempo sin que el sujeto sea expuesto a nuevas sesiones observamos que 
se produce cierta recuperación de la respuesta, fenómeno conocido como 
recuperación espontánea. Es decir, si una rata recibe entrenamiento de 
recompensa para presionar una palanca y obtener una bolita de comida y, 
posteriormente, es sometida a un procedimiento de extinción en el que no se 
presenta la comida tras la emisión de la respuesta, la rata dejará de presionar 
la palanca. Pero, si dejamos pasar cierto tiempo desde la última sesión de 
extinción sin contacto con la contingencia entre la respuesta y la consecuen- 
cia prestablecida, y volvemos a introducir a la rata en la caja de condiciona- 
miento operante, es muy probable que la rata vuelva a presionar la palanca. 
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Además de la disminución de la tasa de respuesta, la extinción tiene otros 
efectos sobre la conducta. Uno de estos efectos es conocido como el «esta- 
llido de extinción». Este fenómeno suele ocurrir en los primeros momen- 
tos en los que dejamos de presentar el reforzador, y consiste en un aumento 
de la tasa de respuesta en un ensayo o sesión en el que se ha dejado de 
presentar el reforzador que anteriormente se presentaba. Posteriormente, 
la tasa de respuesta comienza a disminuir de manera gradual. Otro efecto 
que ocurre cuando comienza un procedimiento de extinción es el aumento 
de la variabilidad de la respuesta. Una posible interpretación adaptativa 
de este fenómeno tiene que ver con que esta variación conductual aumenta 
las oportunidades de que un organismo pueda reinstaurar el reforzamiento 
o entrar en contacto con otras posibles fuentes de reforzamiento. 


En relación con estos efectos podríamos pensar en el ejemplo de un 
padre cuyo hijo no deja de interrumpirle tratando de llamar su atención. 
Si decide ignorar a su hijo con la esperanza de que desista de su actitud, 
muy probablemente al principio el niño aumentara su insistencia e inclu- 
so empezará a gritar. Sin embargo, si el padre se mantiene en su actitud 
durante un tiempo largo probablemente el niño deje de molestar. En este 
sentido es importante señalar que como consecuencia de la extinción es 
habitual encontrase con un estado emocional que se suele denominar frus- 
tración, y que da lugar a que surjan respuestas emocionales incondicio- 
nadas como el aleteo en las palomas, el que las ratas muerdan la palanca 
o la agresión en humanos. Solo tenemos que pensar lo que hacen muchas 
personas cuando han introducido dinero en una máquina dispensadora de 
bebidas y esta no le entrega su pedido, lo mínimo que nos encontramos es 
que esta persona presione el botón muchas veces, golpee el aparato o inclu- 
so lo mueva violentamente. 


Como hemos dicho, una de las respuestas emocionales que ocurren 
durante la extinción es la agresión. En un trabajo ya clásico, se entrenaron 
palomas mediante un procedimiento en el que se alternaban períodos de 
reforzamiento con comida con períodos de extinción. Los investigadores 
encontraron que las palomas atacaban a otra paloma atada e inactiva o a 
un muñeco con forma de paloma si eran introducidas en la caja durante 
los períodos de extinción. Además, estos ataques se limitaron al principio 
de los períodos de extinción (Azrin, Hutchinson y Hake, 1966). De alguna 
manera este experimento ilustra las conductas agresivas que pueden apa- 
recer como consecuencia de la reacción emocional de frustración asociada 
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con los momentos iniciales de los procedimientos de extinción. Estos efec- 
tos relacionados con la extinción tienen bastante sentido en condiciones 
naturales. Si una conducta anteriormente daba lugar a una consecuencia 
favorable para el organismo y en el momento actual ya no la produce, es 
decir, cuando algo funcionaba y ya no funciona, la selección natural parece 
haber favorecido que los organismos repitan las conductas que funciona- 
ron en el pasado y que además el rango de respuestas ante esa situación 
aumente así como que se presenten con más fuerza. 


En el laboratorio, cuando la extinción sigue su curso, las respuestas 
emocionales comienzan a desaparecer y la intensidad de la respuesta dis- 
minuye. Si el procedimiento es lo suficientemente largo la intensidad o la 
tasa de la respuesta suele volver al nivel registrado antes de que la conducta 
fuese reforzada. En muchas ocasiones esto no sucede en una sola sesión 
y se deben programar varias o incluso muchas sesiones para que la tasa 
de respuesta baje hasta el nivel establecido durante la línea base. La tasa 
de respuesta mostrada por los sujetos durante la sesiones de extinción 
puede considerarse como un índice de la resistencia a la extinción. En 
contra de lo que cabría esperar, generalmente las respuestas operantes que 
han sido reforzadas en pocas ocasiones se extinguen de forma lenta, sin 
embargo cuando una respuesta ha sido reforzada en múltiples ocasiones 
muestra menor resistencia a la extinción, sobre todo cuando en la fase 
de adquisición se ha utilizado un programa de reforzamiento continuo. A 
este fenómeno se le ha denominado efecto del sobreentrenamiento en 
la extinción (Ison, 1962; Senkowski, 1978; Tombaugh, 1967). Asimismo, 
la resistencia a la extinción aumenta de forma importante en el momento 
en que se utiliza un programa de reforzamiento parcial o intermitente. 
Como veremos en el siguiente capítulo (Capítulo 5), en estos programas no 
se refuerzan todas las respuestas sino sólo algunas de ellas, por ejemplo, 
dar una porción de comida a una rata por presionar una palanca 50 veces. 
La extinción de este tipo de programas muestra mucha mayor resistencia 
que si el reforzamiento utilizado durante la adquisición de la respuesta es 
continuo, fenómeno conocido como efecto del reforzamiento parcial en la 
extinción. Distintos experimentos han demostrado que con igual número 
de respuestas reforzadas durante la fase de adquisición, el reforzamiento 
intermitente es más resistente a la extinción que el continuo (Falls, 1998). 
Esto podemos también observarlo en comportamientos humanos en los que 
se ofrecen reforzadores esporádicos. Así, es bastante fácil de entender que 
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conductas como el llanto de los niños, que unas veces son reforzadas y en 
otros casos no, son muy difíciles de erradicar. El efecto del reforzamiento 
parcial se ha tratado de explicar como el resultado de dos procesos básicos 
como son el reforzamiento y la discriminación (Nevin, 1988). Si tenemos 
en cuenta que el reforzamiento aumenta la resistencia al cambio, es decir, a 
mayor tasa de reforzamiento mayor resistencia al cambio, los programas de 
reforzamiento continuo serían más resistentes al cambio que los programas 
de reforzamiento intermitente. Sin embargo, como hemos visto, la extinción 
ocurre más rápido con programas de reforzamiento continuo. Esta contra- 
dicción podría ser debida a que la discriminación entre el reforzamiento y la 
extinción es más fácil y rápida si el programa es de reforzamiento continuo 
que si es intermitente. Es decir, es más fácil discriminar la diferencia entre 
un programa con una tasa estable y alta de reforzamiento de un programa 
en el que el reforzamiento no existe (extinción), que entre un programa de 
tasa baja e intermitente de reforzamiento y la extinción. Otro factor que 
podría estar operando es la generalización de la situación de reforzamiento 
intermitente a la de extinción, dando esto también lugar a una mayor resis- 
tencia al cambio en los programas de reforzamiento intermitente. Por tanto, 
los factores de discriminación y generalización anularían el efecto produci- 
do por la mayor tasa de reforzamiento de los programas de reforzamiento 
continuo, mostrando una mayor resistencia al cambio los animales que han 
tenido reforzamiento intermitente durante la fase de adquisición. Otra posi- 
ble explicación de la mayor resistencia a la extinción en los programas de 
reforzamiento intermitente con respecto a los programas de reforzamiento 
continuo podría ser el contacto con las contingencias. Pensemos en una rata 
que recibe una bolita de comida por presionar una palanca 50 veces. Este 
animal tendría que emitir al menos 50 respuestas para percibir el cambio 
entre el reforzamiento y la extinción, sin embargo un animal que reciba una 
porción de comida por cada respuesta toma contacto con la contingencia de 
extinción de forma inmediata. Así, el animal bajo reforzamiento continuo 
cuando pasa a la extinción y ha emitido 10 respuestas ha experimentado la 
contingencia de extinción esas 10 veces, sin embargo la rata bajo reforza- 
miento intermitente tendría que presionar 500 veces la palanca para experi- 
mentar las mismas contingencias de extinción. 


La teoría de la frustración (A. Amsel, 1962; Abram Amsel, 1992) trata 


de explicar la persistencia de la respuesta durante la extinción como resul- 
tado del aprendizaje de algo paradójico, esto es, continuar respondiendo 
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cuando se espera no ser reforzado o ser frustrado. Esta teoría asume que 
el reforzamiento parcial da lugar a que el resultado del aprendizaje sea 
esperar la ausencia de reforzamiento. Sin embargo, no hay nada durante la 
experiencia con reforzamiento continuo que motive a los sujetos a emitir la 
respuesta durante la extinción. 


Otras variables que influyen en la persistencia de la respuesta durante la 
extinción son la magnitud del reforzador y la inmediatez de la recom- 
pensa empleadas durante la fase de adquisición. En general, cuando la 
magnitud de la recompensa durante la adquisición es alta y se administra 
de forma continua durante los ensayos de adquisición, la resistencia a la 
extinción disminuye. Esto no ocurre así, sin embargo, cuando las recom- 
pensas grandes se administran intermitentemente, tal y como señalábamos 
anteriormente, como consecuencia del efecto del reforzamiento parcial. 
Así, la resistencia a la extinción será baja cuando las recompensas grandes 
son administradas de forma continua, pero será alta cuando las recompen- 
sas grandes se administran de forma intermitente. En cuanto a la inmedia- 
tez de la recompensa parece claramente demostrado que cuando la demora 
en la presentación del reforzador es baja, es decir, pasa poco tiempo entre 
la emisión de la respuesta y la obtención del reforzador, la resistencia a la 
extinción es mayor. Esto tiene una gran importancia en conductas adictivas 
como el juego patológico, donde se ha observado que los juegos de azar 
en los que se obtienen recompensas inmediatas, como son las máquinas 
tragaperras, existe un potencial adictivo mayor que los juegos en los que se 
reciben los premios de forma demorada (Choliz, 2010). 


Finalmente, y como ya hemos señalado, los procedimientos de extin- 
ción hacen que con el tiempo la conducta operante disminuya. Esto ha 
hecho pensar que esta disminución de la respuesta podría ser debida a la 
pérdida de memoria o al olvido. En relación con esto es muy importante 
señalar que la disminución de la respuesta que ocurre como resultado de la 
extinción es muy diferente a lo que sucede como consecuencia del olvido. 
La extinción es un procedimiento en el que una respuesta anteriormente 
reforzada ya no produce reforzamiento pero la posibilidad de emitir la res- 
puesta sigue disponible. Sin embargo, en el caso del olvido la disminución 
de la respuesta ocurre simplemente debido al paso del tiempo y la posibili- 
dad de emitir la respuesta no está presente. Otro punto importante a tener 
en cuenta es que la extinción no revierte lo ocurrido durante la adquisición 
sino que implica un aprendizaje nuevo, que de alguna manera se superpone 
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a lo aprendido anteriormente. Además de la recuperación espontánea exis- 
ten otros tres fenómenos que dan cuenta de que la extinción no es debida 
al olvido ni a que haya un total desaprendizaje de la conducta adquirida: 
la renovación, la restauración y el restablecimiento. La renovación en el 
condicionamiento operante consiste en la recuperación de la respuesta 
extinguida en un contexto diferente al que se llevó a cabo el procedimiento 
de extinción (Bouton, Todd, Vurbic y Winterbauer, 2011). De modo similar, 
se puede producir una restauración de la conducta propia de la extinción 
volviendo a situar a los sujetos en el contexto original de la extinción. 
Finalmente, el restablecimiento es un procedimiento en el que se puede ver 
cómo las respuestas extinguidas vuelven a aparecer. En este caso, después 
de que una respuesta instrumental es extinguida, los sujetos son expuestos 
de forma no contingente al reforzador empleado durante la adquisición. El 
resultado de la presentación es la reaparición de la respuesta previamente 
extinguida sin que ésta dé lugar al reforzador. Estos fenómenos y proce- 
dimientos concuerdan con la idea de que la recuperación espontánea es 
debida a la disminución del control que las claves contextuales tienen sobre 
la conducta con el paso del tiempo (Bouton, 1993) y pone de manifiesto 
que, de igual manera que en el condicionamiento clásico, la extinción en el 
condicionamiento operante es específica del contexto en el que ha ocurrido. 


Procedimientos del condicionamiento operante (Resumen) 


Los procedimientos fundamentales de condicionamiento operante se han 
definido en función del tipo de contingencia (positiva o negativa) y de la natu- 
raleza de las consecuencias (apetitivas o aversivas). De esta forma se pueden 
establecer cuatro procedimientos fundamentales de condicionamiento operan- 
te que dan lugar a un aumento (reforzamiento positivo, escape y evitación) o 
una disminución de la tasa de respuesta (castigo y entrenamiento de omisión). 
El reforzamiento positivo o entrenamiento de recompensa tiene lugar en el 
momento en el que una consecuencia apetitiva se presenta de forma contingen- 
te a una respuesta, y en el caso de los procedimientos de escape y evitación se 
establece una contingencia negativa con un evento de naturaleza aversiva. En 
el caso del castigo se establece una contingencia positiva con una consecuencia 
aversiva mientras que en el entrenamiento de omisión la contingencia es nega- 
tiva y la consecuencia apetitiva. 


La extinción es el proceso por que se produce la reducción de una respuesta 
previamente aprendida que ocurre porque la respuesta ya no es seguida por el 
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reforzador, así como el procedimiento de no volver a reforzar una respuesta 
instrumental previamente reforzada, y no debe confundirse con el olvido que 
ocurre por el mero paso del tiempo. La extinción da lugar a fenómenos como el 
estallido de la respuesta durante la extinción, así como al aumento de la varia- 
bilidad en la respuesta, además de respuestas emocionales relacionadas con 
la frustración. Se ha señalado a su vez como los programas de reforzamiento 
intermitente son más resistentes a la extinción que los de reforzamiento conti- 
nuo, fenómeno conocido como efecto del reforzamiento parcial en la extinción. 
La renovación, la restauración y el restablecimiento de la respuesta ponen de 
manifiesto que durante la extinción no hay desaprendizaje y que es un fenóme- 
no que tiene poco que ver con el olvido. 


4. FENÓMENOS DEL CONDICIONAMIENTO OPERANTE 


4.1. La conducta supersticiosa 


La posibilidad de que una respuesta 
presentada sin motivo aparente sea segui- 
da de forma azarosa por un reforzador da 
lugar a que en ciertas ocasiones una con- 
ducta pueda ser reforzada  accidental- 
mente. En 1948 Skinner llevó a cabo un 
experimento conocido a día de hoy como 
«el experimento de superstición» que 
generó un importante debate acerca del 
papel de la contigitidad y la contingencia 
en el reforzamiento (Skinner, 1948). Su experimento demostró, al menos en 
parte, las consecuencias que el reforzamiento accidental tiene en el proceso 
de aprendizaje. En este experimento los sujetos eran palomas situadas en 
cajas experimentales independientes. El procedimiento consistía simple- 
mente en dispensar una pequeña cantidad de grano en los comederos de 
las cajas de condicionamiento cada 15 segundos, independientemente de lo 
que hiciesen las palomas, y registrar su comportamiento. Lo que observó 
Skinner es que los animales presentaban ciertas pautas de comportamiento 
que parecían indicar que su conducta controlaba la entrega del reforzador. 
Antes de la entrega del reforzador cada paloma mostraba un tipo de com- 
portamiento distintivo que repetía en los sucesivos ensayos. Es decir, los 
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animales actuaban como si su comportamiento estuviese relacionado con 
la entrega del reforzador, cuando en ningún caso era así. Skinner explicó 
este comportamiento mediante la idea del reforzamiento accidental o 
adventicio, o dicho de otra forma, que si una respuesta ocurre cuando se 
entrega el reforzador esa conducta es reforzada. Si el primer reforzador se 
presenta de forma inmediata a cuando la paloma alza su cabeza, la con- 
ducta «alzado de la cabeza» se reforzará y tendrá una mayor probabilidad 
de ocurrencia en el futuro. Además, este aumento de la probabilidad de 
ocurrencia hace también más probable que la respuesta se presente en el 
momento de la entrega del reforzador en los ensayos sucesivos y, de este 
modo, la alta probabilidad de ocurrencia de esta respuesta en relación con 
otras conductas le confiere una alta probabilidad de ser reforzada en futu- 
ros ensayos. 


La explicación dada por Skinner al «experimento de superstición» fue 
puesta en duda por investigaciones posteriores (Staddon y Simmelhag, 
1971). Staddon y Simmelhag replicaron el experimento de superstición de 
Skinner registrando el comportamiento de las palomas de forma mucho 
más minuciosa, lo que les llevó a extraer conclusiones muy diferentes. Los 
autores encontraron que las respuestas emitidas por los animales durante 
el experimento podían ser agrupadas en dos categorías principales a las que 
llamaron conductas de ínterin y conductas terminales. Las conductas de 
ínterin fueron definidas como aquellas actividades del animal que tenían 
lugar en el medio del intervalo, cuando faltaba todavía bastante tiempo 
para la aparición del reforzador. Este tipo de conductas incluían moverse 
a lo largo de la pared frontal de la caja o dar vueltas sobre sí mismas. Las 
conductas terminales las definieron como aquellas que ocurrían al final 
del intervalo y próximas en el tiempo a la aparición del reforzador. Entre 
estas actividades o respuestas incluyeron, por ejemplo, que la paloma pico- 
tease en el comedero o en sus proximidades. Los autores observaron que 
este patrón de respuestas no variaba de forma significativa de unas palomas 
a otras y por ello argumentaron que no es el reforzamiento accidental lo 
que origina un aumento en la frecuencia de las conductas de ínterin, sino 
que estas conductas son simplemente respuestas que un sujeto emite de 
forma innata cuando la probabilidad de reforzamiento es baja. Por otro 
lado, la entrega de comida parecía sólo influir en las respuestas termi- 
nales, como el picoteo que ocurre de forma frecuente antes de la entrega 
de comida, y su aparición no estaría relacionada con un reforzamiento 
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accidental. En consecuencia, podríamos decir que no todas las conductas 
que aparecen cuando se entregan reforzadores de forma periódica son el 
resultando de un emparejamiento aleatorio entre la respuesta y el refor- 
zador. Muchas de estas respuestas pueden ser conductas innatas con alta 
probabilidad de aparición cuando el sujeto está «esperando» la aparición 
del siguiente reforzador. En resumen, podríamos pensar que determinadas 
«conductas supersticiosas» estarían explicadas por el reforzamiento acci- 
dental propuesto por Skinner, y otras por mecanismos que tendrían que 
ver con conductas innatas relacionadas con la manera en que los organis- 
mos se relacionan con el paso del tiempo y la aparición de reforzadores en 
ambientes naturales. 


Como es bien sabido por todos, el comportamiento supersticioso tam- 
bién ocurre en la especie humana. Las conductas supersticiosas ocurren 
de forma frecuente en situaciones en las que no hay ningún tipo de control 
sobre las consecuencias de las acciones, como pueden ser los juegos de 
azar. Las personas que juegan en las máquinas tragaperras desarrollan 
conductas estereotipadas antes de realizar una jugada, como introducir 
las monedas de determinada manera, introducir un número de monedas 
determinado o tocar los botones o partes de la máquina en una secuencia 
particular. La conducta supersticiosa también es habitual en los deportis- 
tas. Los comportamientos supersticiosos que muestran muchos deportistas 
de élite tienen, con frecuencia, su origen en algún tipo de éxito con el que 
esa conducta ha tenido relación en el pasado. Un ejemplo bastante cono- 
cido es el siguiente: cuando el jugador de baloncesto Michael Jordan ganó 
su primer título llevaba puestos unos pantalones cortos debajo de su uni- 
forme. A partir de ese momento llevó puestos pantalones cortos debajo de 
su uniforme durante gran parte de su carrera en la NBA. Existen además 
evidencias que demuestran que las personas que tienen una gran necesidad 
de control sobre los eventos es más probable que desarrollen conductas 
supersticiosas (Keinan, 2002). 


Herrstein diferenció la forma en que se adquieren determinadas supers- 
ticiones humanas estableciendo principios diferentes para cada una de 
ellas (Herrstein, 1966). Por una parte las supersticiones idiosincráticas 
que estarían motivadas por la experiencia propia anterior con situaciones 
de reforzamiento y por otro lado las supersticiones sociales típicas que se 
han mantenido a lo largo del tiempo (por ejemplo, creer que el número 
13 o romper un espejo trae mala suerte), que sugirió que eran un residuo 
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de contingencias previas de reforzamiento que ya no eran efectivas. Como 
ejemplo de estas últimas señaló la creencia popular de que da mala suerte 
encender tres cigarrillos con la misma cerilla. La explicación de esta con- 
ducta supersticiosa parece ser que proviene de la primera guerra mundial 
en la que durante gran parte de las batallas los combatientes permanecían 
refugiados en las trincheras. En esta situación era probable que cuanto 
más tiempo durase la cerilla encendida para encender el cigarrillo más 
probable sería que un soldado fuese abatido por un disparo del enemigo. 
En este ejemplo vemos cómo una contingencia de reforzamiento que tenía 
una gran relevancia en una determinada situación deja de tenerla en otras 
y, aun así, se mantiene a lo largo de varias generaciones. 


4.2. La deriva instintiva y el concepto de relevancia o pertinencia en 
el condicionamiento instrumental 


¿Permite el condicionamiento instrumental condicionar de la misma 
forma cualquier tipo de respuesta? La respuesta a esta pregunta parece 
ser que es no. Como hemos visto en el Capítulo 3, dedicado al condiciona- 
miento clásico, existen ECs que se condicionan con más facilidad cuando 
se presentan asociados a determinados Els. De forma similar, en el condi- 
cionamiento operante existen situa- 
ciones en las que también se observan 
relaciones de pertinencia o relevancia 
entre respuestas y reforzadores, es 
decir, hay respuestas que son más 
complicadas de condicionar cuando 
se utilizan ciertos tipos de reforza- 
dores. Thorndike fue el primero en 
señalar la facilidad o dificultad para 
condicionar determinadas respuestas 
y propuso el término de pertinen- 
cia para explicar los problemas para 
entrenar conductas como el rascado y 
el bostezo. El concepto de pertinencia 
pone de relieve que algunas respuestas 
se relacionarían de modo natural con 
el reforzador como consecuencia de la 
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historia evolutiva del animal, por lo que serían más fáciles de condicionar 
que otras dependiendo del reforzador que utilicemos. 


Marion y Keller Breland fueron dos estudiantes de Skinner que poste- 
riormente montaron una empresa dedicada al entrenamiento de animales. 
Su trabajo consistía en condicionar a distintos animales para actos circen- 
ses, espectáculos, etc... Durante sus entrenamientos, observaron algunas 
limitaciones del condicionamiento instrumental cuando trataban de refor- 
zar conductas utilizando comida como reforzador. En distintas ocasiones 
surgían conductas típicas de las especies que entrenaban que interferían 
con las respuestas operantes pretendidas. Por ejemplo, cuando trataban de 
adiestrar a un mapache para que depositase monedas en una hucha a cam- 
bio de comida, los animales misteriosamente frotaban las monedas durante 
segundos o incluso minutos sin llegar a depositar su moneda en el contene- 
dor, además, la ejecución de la tarea empeoraba según el entrenamiento iba 
avanzando. Los Breland dieron el nombre de deriva instintiva al desarrollo 
de estas conductas como la de hozar en los cerdos y frotar monedas en los 
mapaches, respuestas naturales, aparentemente muy fuertes, relacionadas 
con la comida y que competían con las respuestas que requería el entrena- 
dor (Breland y Breland, 1961). 


4.3. Los cambios en la cantidad y la calidad de la recompensa: 
el fenómeno de contraste conductual 


El efecto de la recompensa en la conducta depende de la experiencia 
pasada con otros reforzadores. El contraste conductual es un fenómeno 
muy interesante en relación con la psicología de la motivación y se basa en 
el hecho de que la efectividad de un reforzador para controlar una conducta 
puede verse modificada por la experiencia previa con el mismo reforzador 
cuando éste es de una magnitud o calidad diferente. Es muy fácil darse 
cuenta de lo contenta que se pone la gente cuando recibe un aumento de 
sueldo, y del mismo modo, ocurre lo contrario cuando hay una bajada, nor- 
malmente nos enfadamos muchísimo. Sin embargo, esto no tiene que ver 
con el valor absoluto del reforzador. Planteemos la situación de forma dis- 
tinta, una persona gana por su trabajo 1400 euros al mes y otra gana 1600 
euros, si todo sigue así esas dos personas llevarán una vida más o menos 
tranquila. De pronto, la primera de estas dos personas recibe un aumento 
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de sueldo de 100 euros y la segunda una bajada de 100 euros. Lo que vemos 
aquí es que las dos personas finalmente reciben una cantidad de 1500 
euros, es decir, el mismo reforzador, que sin embargo los dos sujetos perci- 
ben ahora de forma muy diferente. Los efectos que tienen los cambios en la 
eficacia del reforzador debido a la experiencia previa con otros reforzadores 
fueron descritos en primer lugar por Crespi en 1942, de hecho, al fenómeno 
se le dio en un primer momento el nombre de «efecto Crespi». Un estudio 
más reciente de Mellgren ilustra de forma clara el fenómeno. En su experi- 
mento (Mellgren, 1972) utilizó cuatro grupos de ratas en un corredor recto 
a las que midió la velocidad de sus carreras. Durante la primera fase tanto 
el grupo A como el grupo B recibieron 2 bolitas de comida en el momento 
en que llegaron al final del corredor, mientras que los grupos C y D recibie- 
ron 22 bolitas de comida. En una segunda fase se reasignó la cantidad de 
comida entre los grupos. De esta manera, el grupo A siguió recibiendo la 
misma cantidad de comida (2 pellets o bolitas de comida) mientras que el 
grupo B pasó a recibir 22; el grupo C siguió recibiendo 22 pellets, mientras 
que el grupo D pasó a recibir únicamente 2 pellets de comida. El diseño del 
experimento quedó establecido como se señala en la siguiente tabla: 


Tabla 4.2. Esquema del experimento de Mellgren en el que se demuestran los fenó- 
menos de contraste conductual positivo y negativo 


Grupo Fase 1 Fase 2 Resultado 
Grupo A Recompensa Pequeña Recompensa Pequeña Misma velocidad en 
(Pequeño-Pequeño) (Q Bolitas de comida) (2 Bolitas de comida) las carreras 
Grupo B Recompensa Pequeña Recompensa Grande | Aumento de la velocidad 
(Pequeño-Grande) (Q Bolitas de comida) (22 Bolitas de comida) en las carreras 
Grupo C Recompensa Grande Recompensa Grande Misma velocidad en 
(Grande-Grande) (22 Bolitas de comida) | (22 Bolitas de comida) las carreras 
Grupo D Recompensa Grande Recompensa Pequeña Disminución de la 
(Grande-Pequeño) (22 Bolitas de comida) (2 Bolitas de comida) | velocidad en las carreras 


Los resultados del experimento mostraron que los grupos a los que no 
se les cambió la cantidad de comida durante la fase 2 mostraron la misma 
velocidad en sus carreras a lo largo del corredor recto. Sin embargo, los 
animales que durante la fase 2 del experimento recibieron una cantidad 
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de comida mayor mostraron un aumento en la velocidad de sus carreras 
mientras que los animales que cambiaron de la recompensa grande a la 
recompensa pequeña mostraron una disminución significativa en la veloci- 
dad de sus carreras. De este modo, se pudo observar que los efectos de la 
recompensa dependen de la experiencia previa con otras recompensas. Las 
ratas que experimentaron una recompensa favorable en contraste con la 
que habían recibido anteriormente, corrieron más deprisa incluso que las 
ratas que tenían una recompensa grande durante las dos fases, fenómeno 
conocido como contraste conductual positivo. Sin embargo, las ratas que 
recibieron una recompensa desfavorable con respecto a la que habían obte- 
nido durante la primera fase del experimento, mostraron una disminución 
en la velocidad de sus carreras con respecto a los animales que siempre 
experimentaron una recompensa pequeña, efecto denominado contraste 
conductual negativo. 


Experimentos recientes han demostrado que los fenómenos de contraste 
pueden depender a su vez del estado afectivo previo (Mitchell, Marston, Nutt 
y Robinson, 2012), es decir, el fenómeno de contraste puede mostrarse de 
diferente forma dependiendo de si el estado afectivo del animal es positivo 
o negativo. Así, se ha propuesto que la sensibilidad de un individuo hacia la 
ganancia o pérdida de recompensas dependerá del estado emocional en el que 
se encuentre (Hajcak, McDonald y Simons, 2004; Wenzlaff y Grozier, 1988). 


4.4. La controlabilidad de las consecuencias aversivas y el efecto de 
indefensión aprendida 


Otro de los fenómenos interesantes relacionados con el condicionamien- 
to operante es el efecto que tiene la controlabilidad de las consecuencias 
aversivas de la propia conducta. Martin E. P. Seligman y sus colaboradores 
descubrieron que cuando los animales son sometidos a situaciones en las 
que tienen poco o ningún control, desarrollan una reacción emocional en 
la que manifiestan un comportamiento pasivo ante dichas circunstancias 
o circunstancias parecidas, y se piensa que esta reacción es similar a la 
depresión humana (Seligman, 1975). Este efecto conductual, denomina- 
do indefensión aprendida, ha sido confirmado en distintas ocasiones, por 
varios laboratorios y en diferentes especies, lo que indica lo robusto y 
general que es el fenómeno (Peterson, 1993). En estos experimentos (véase 
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Tabla 4.3), en una primera fase conocida como fase de preexposición al 
entrenamiento escape/evitación, los investigadores asignaron grupos de 
perros a tres condiciones experimentales: en la primera de ellas, el grupo de 
control escapable era sometido a un entrenamiento de escape/evitación en 
el que si el animal emitía la respuesta requerida podía detener o impedir la 
presentación de una descarga. El segundo de los grupos, el grupo acoplado 
(grupo experimental) recibía las mismas descargas que el grupo anterior, 
pero en este caso la conducta del animal no tenía consecuencias sobre las 
descargas. Finalmente utilizaron, además, un segundo grupo control que 
simplemente estaba confinado en la misma situación que los demás grupos 
pero no recibía tratamiento. En una segunda fase del experimento, todos 
los grupos de animales fueron sometidos a varios ensayos de entrenamiento 
en escape/evitación. Lo que observaron los investigadores es que el grupo 
que recibió las descargas inescapables durante la fase de preexposición 
mostró un aprendizaje de escape/evitación mucho más lento que los otros 
dos grupos (Figura 4.5). Además, también demostraron que no existían 
diferencias estadísticamente significativas entre los grupos de animales 
sometidos durante la fase de preexposición a las descargas escapables y 
los que no recibieron las descargas durante esta fase. Los investigadores 
concluyeron que el entrenamiento anterior con las descargas inescapables, 
generaba en los animales la expectativa de que su conducta no tenía ningún 
efecto sobre las consecuencias aversivas que experimentaba, ya que apren- 
dían que la aparición de las descargas era independiente de su conducta. A 
esta explicación del fenómeno se la conoce como la hipótesis de la inde- 
fensión aprendida. 


Tabla 4.3. Diseño triádico empleado en los estudios sobre el efecto de la infedensión 
aprendida (Seligman y Maier, 1967) 


Fase de aprendizaje 


E Resultado conductual 
escape / evitación 


Fase de preexposición 


Descargas m a ÑO 
Escape ntalables Señal - descarga Aprendizaje rápido 
Descargas Y e 
Acoplado e sontlablás Señal - descarga Aprendizaje lento 
Control confinado Sin descargas Señal - descarga Aprendizaje rápido 
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Latencia de escape media en los Porcentaje de sujetos que no consiguen escapar en 9 
diferentes grupos utilizados en el diseño triádico de cada 10 ensayos 


(Segundos) 


Control confinado Acoplado Escape Control confinado Acoplado 


pi 


Figura 4.5. Resultados obtenidos en el experimento de Seligman y Maier utilizando el 
diseño triádico en el que demostraron el efecto de indefensión aprendida. Los sujetos 
que pertenecían al grupo acoplado tuvieron mayores latencias de escape y un porcentaje 
mayor de ensayos de escape-evitación fallidos que los pertenecientes a los grupos escape y 
control confinado. Resultados adaptados de M. E. Seligman y Maier, 1967. 


El propio trabajo de estos investigadores sugiere posibles medidas para 
reducir el efecto de la indefensión. Una posible manera de hacerlo podría 
ser forzando a los perros a cruzar la barrera durante un buen número de 
ensayos, lo que tendría como consecuencia que posteriormente presentasen 
la respuesta por sí mismos. Seligman sugirió que el mejor tratamiento para 
la indefensión es ubicar al sujeto en una situación en la que no fuese posible 
fallar dado que ello generará de nuevo la expectativa de que la conducta 
toma control sobre las consecuencias. 


Son también interesantes los estudios que demostraron que la inde- 
fensión aprendida se puede, de alguna manera, prevenir. Seligman llamó 
«inmunización» al proceso que se desarrolla cuando un sujeto tiene una 
primera experiencia con descargas escapables que bloquea el desarrollo de 
la indefensión aprendida cuando se presentan descargas inescapables en 
una fase posterior (Williams y Lierle, 1986). 


4.5. Los efectos de la demora del reforzador en el condicionamiento 
instrumental: el procedimiento de marcado 


Es evidente que la entrega de una recompensa aumenta la probabilidad 
de que una respuesta vuelva a ocurrir y, por tanto, que vuelva a ser emitida. 
Pero, ¿cuál es el momento en el que tenemos que aplicar la recompensa para 
que el reforzamiento de la respuesta ocurra? Uno de los fenómenos más 
firmemente establecidos en la psicología del aprendizaje es la dificultad de 
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reforzar una respuesta cuando la entrega de la recompensa se demora en el 
tiempo. Es muy fácil reforzar una conducta cuando el reforzador se entrega 
inmediatamente, pero la cosa es bien distinta cuando el mismo reforzador 
es entregado después de que pase un lapso importante de tiempo. La demo- 
ra del reforzamiento ocurre cuando existe un período de tiempo entre la 
respuesta que da lugar al reforzador y la entrega posterior del mismo. En 
función de las circunstancias, la demora del reforzamiento puede disminuir 
o aumentar la conducta, o incluso no modificarla respecto al reforzamiento 
no demorado. Además, el mismo valor de la demora puede tener diferentes 
efectos en función de otros parámetros, tanto de la misma demora como de 
las condiciones de mantenimiento del reforzamiento (Shahan y Lattal, 2005). 
Una cuestión muy importante que hay que tener en cuenta a la hora de estu- 
diar los efectos de la demora es obtener una línea base de respuesta estable a 
partir de la cual poder observar los efectos de la presentación demorada del 
reforzador. Cuando la línea base es estable y se impone una demora, normal- 
mente ésta da lugar a una reducción de la respuesta, sin embargo, incluso 
en estas condiciones no siempre eso es así, ya que en un primer momento 
incluso puede ocurrir un aumento. En conclusión, los efectos de la demora 
del reforzamiento deben analizarse desde una perspectiva en la que se con- 
sidere más como un proceso dinámico resultante de las acciones directas o 
indirectas de distintas variables en la conducta que de la influencia de un 
simple parámetro estático del reforzamiento (Lattal, 2010). 


La mayoría de las teorías asociativas del aprendizaje defienden que dos 
eventos deben ser contiguos para que puedan ser asociados. Una forma 
de evitar los efectos de la demora en la entrega del reforzador consiste en 
marcar la respuesta haciendo que esta pueda diferenciarse de otros eventos 
que ocurren durante el período de demora. La presentación de un estímulo 
contingente a la respuesta convierte esa respuesta en un evento significa- 
tivo. Los efectos del procedimiento de marcado (Lieberman, McIntosh 
y Thomas, 1979) fueron inicialmente descritos utilizando un diseño expe- 
rimental en el que los animales fueron asignados a dos grupos al azar: el 
grupo marcado (experimental) y el grupo no marcado (control). Los anima- 
les debían realizar una tarea como la que se muestra en la (figura 4.6) que 
consistía en que si los animales pasaban por el brazo lateral negro recibían 
una bolita de comida en la caja meta. En el momento en que los animales 
realizaban la elección (pasar al brazo negro o al brazo blanco) los animales 
del grupo marcado fueron cogidos por el experimentador y trasladados a la 
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Brazo lateral negro 


Caja de 
Salida 


Caja de 
elección 


Caja de Caja de 
demora Meta 


Brazo lateral blanco 


Figura 4.6 Esquema del instrumento utilizado para el procedimiento de marcado. 


-S- Nomarcado EF Marcado 


ES 1007 

SS _] 

12] al 

E 

+ 

5 _ 

9) 

E _] 

o  50- 

9 _] 

3 | Figura 4.7 Porcentaje de 

E respuestas correctas en 

o 7 la primera elección en 

E 7 bloques de 10 ensayos para 
0 


cada grupo. Adaptado de 
1 2 3 4 5 Lieberman, McIntosh y 
Bloques de 10 ensayos Thomas, 1979. 


caja de demora, sin embargo, a los animales de grupo control se les abrió 
la puerta a la caja de demora y se les dejó pasar libremente. Tal como está 
planteado el diseño, los investigadores trataron a los dos grupos de forma 
idéntica, salvo en el momento en que los animales realizaban la elección 
de la respuesta. Como se muestra en la figura 4.7, los sujetos del grupo 
marcado mostraron un mayor número de elecciones correctas a lo largo 
de los ensayos, llegando a un 90% en el último de los bloques, mientras 
que el grupo control sólo mostró la ejecución correcta en un 50% de los 
ensayos. La explicación que dieron los autores a estos resultados es que la 
manipulación de los animales posterior a la respuesta de elección provoca 
un marcado de la respuesta de elección en la memoria de los sujetos y que 
esto hace más probable recuperar esta respuesta cuando los sujetos reci- 
ben la recompensa después de la demora. Otra posible explicación es que 
el marcado pudiese estar operando a modo de reforzador secundario, sin 
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embargo, esto no sería así desde el momento en que el estímulo se presentó 
tanto tras la elecciones correctas como tras las incorrectas, por lo que si 
fuese debido al reforzamiento secundario deberían aumentar ambas res- 
puestas, las correctas y las incorrectas. 


4.6. Devaluación del reforzador 


Una forma de demostrar que en el condicionamiento operante se apren- 
den asociaciones entre la respuesta y la consecuencia es utilizando el proce- 
dimiento de devaluación del reforzador. El procedimiento consiste en aso- 
ciar al reforzador que se está utilizando (comida, por ejemplo) un estímulo 
o evento de naturaleza contraria (en experimentos con animales, podría ser 
una sustancia aversiva como el cloruro de litio). Una forma de llevar a cabo 
este procedimiento es utilizando una caja de condicionamiento operante 
con dos palancas. En la primera fase del experimento, la presión de cual- 
quiera de las dos palancas da lugar a la obtención de una bolita de comida, 
que en el caso de que el animal presione la palanca A tiene sabor a naranja 
y en el caso de que presione la palanca B sabor a fresa. Esta primera fase da 
lugar a que los animales presionen indistintamente ambas palancas, si no 
tienen preferencia previa por alguno de los sabores. En una segunda fase, 
las bolitas de comida de uno de los sabores, por ejemplo la del sabor a fresa, 
se emparejan fuera de la caja de condicionamiento con la sustancia aversi- 
va. Finalmente, en una tercera fase los animales vuelven a ser introducidos 
en la caja de condicionamiento operante para determinar la preferencia de 
respuesta. El efecto resultante de este procedimiento es una disminución de 
la respuesta operante en la palanca que da lugar a la entrega del reforzador 
asociado a la sustancia aversiva (en nuestro caso la presión de palanca B, 
que entregaba bolitas de comida con sabor a fresa), aunque la respuesta en 
esta palanca no haya sido nunca contingente al estímulo aversivo. 


En un experimento con ratas para demostrar el fenómeno de la deva- 
luación del reforzador (Colwill y Rescorla, 1985), los animales disponían 
de dos formas diferentes de emitir una respuesta que daban lugar a dos 
reforzadores también distintos. Mediante la presión de una palanca obte- 
nían bolitas de comida y tirando de una cadena obtenían una pequeña can- 
tidad de agua con azúcar. Posteriormente se les dispensó a los animales de 
forma no contingente, ya que la palanca y la cadena no estaban disponibles, 
las bolitas de comida y el agua con azúcar, y a la mitad de las ratas se les 
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inyectó una solución de cloruro de litio para producirles malestar. Cuando 
los animales fueron dispuestos de nuevo en las cajas de condicionamiento, 
los investigadores observaron que las ratas que recibieron el cloruro de 
litio después de recibir la comida o el agua con azúcar presionaron mucho 
menos la palanca o tiraron menos de la cadena que los animales a los que 
no se les inyectó el cloruro de litio. Los resultados de este experimento 
sugieren que los animales aprenden acerca de las consecuencias de su con- 
ducta durante el condicionamiento operante. 


Sin embargo, en determinadas ocasiones la ejecución de una respuesta 
instrumental puede llegar a automatizarse si se entrena o practica de forma 
masiva. En este sentido, algunos autores han diferenciado entre lo que sería 
la acción instrumental, relacionada con aquellas respuestas que son modi- 
ficadas por el valor de sus consecuencias, de aquellas cuya ejecución no 
depende del valor actual del reforzador a las que se les daría el nombre de 
hábitos (Dickinson y Balleine, 1993). Esta diferenciación se ha demostrado 
de forma empírica mediante experimentos de laboratorio en los que se ha 
visto que la extensión del entrenamiento puede hacer que una conducta se 
automatice y que no sea controlada por el valor de las consecuencias toman- 
do forma de hábito rígido. En un estudio utilizando el procedimiento de 
devaluación del reforzador se entrenaron dos grupos de ratas para presionar 
una palanca utilizando bolitas de sacarosa como reforzador (Adams, 1982). 
En uno de los grupos, el entrenamiento se limitó a 100 respuestas reforza- 
das y en el otro grupo, las ratas obtuvieron hasta 500 reforzadores. Tras este 
entrenamiento los investigadores inyectaron cloruro de litio a la mitad de los 
animales de cada grupo. En la fase de prueba se observó que la devaluación 
del reforzador sólo tuvo un efecto claro en los animales con entrenamiento 
corto, mostrando muy poco efecto de devaluación del reforzador los ani- 
males que recibieron un entrenamiento largo. Estos resultados indican que 
la práctica prolongada da lugar al establecimiento de una ejecución de la 
conducta mucho más rígida, menos deliberada y que dependería menos de 
las consecuencias de la misma. Siguiendo este razonamiento, determinadas 
conductas compulsivas, como puede ser la búsqueda de drogas, dependerían 
de mecanismos de aprendizaje diferentes a los que intervienen durante la 
adquisición de la conducta (Zapata, Minney y Shippenberg, 2010). En este 
sentido, distintos autores han implicado los procesos de aprendizaje relacio- 
nados con la formación de hábitos en la transición entre el uso recreativo y el 
uso compulsivo de las drogas que caracteriza la adicción (Everitt et al., 2008). 
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Fenómenos del condicionamiento operante (Resumen) 


En este apartado se han tratado algunos fenómenos relacionados con el 
condicionamiento operante que por su interés o repercusión es importante 
conocer. La conducta supersticiosa ocurre cuando una respuesta es reforzada 
por la aparición azarosa de un reforzador y fue explicada por Skinner mediante 
la idea del reforzamiento accidental o adventicio. Esta explicación fue puesta 
en duda por investigaciones posteriores que señalaron que las respuestas de 
los animales podrían estar agrupadas en conductas de ínterin y conductas 
terminales dependiendo del intervalo temporal en el que sucediesen con res- 
pecto a la entrega del reforzador. Otro interesante fenómeno estudiado en este 
apartado es el de la deriva instintiva que da lugar al concepto de relevancia 
O pertinencia en el condicionamiento instrumental, y señala que ciertas res- 
puestas se relacionarían de modo natural con determinados reforzadores como 
consecuencia de la historia evolutiva del animal, por lo que es más fácil de con- 
dicionar unas respuestas que otras dependiendo del reforzador que utilicemos. 


El efecto de la recompensa en la conducta depende de la experiencia pasa- 
da con otros reforzadores y el fenómeno de contraste conductual se basa en 
el hecho de que la efectividad de un reforzador para controlar una conducta 
puede verse modificada por la experiencia previa con el mismo reforzador 
cuando éste es de una magnitud o calidad diferente. El contraste conductual 
positivo se refiere al aumento de la respuesta debido a una recompensa favo- 
rable como resultado de la experiencia anterior con una recompensa menos 
favorable y el contraste conductual negativo a la disminución de la respuesta 
que tiene lugar cuando se presenta una recompensa desfavorable con respecto 
a una experiencia anterior con una consecuencia más favorable. 


La indefensión aprendida es un fenómeno que tiene que ver con la percep- 
ción que tienen los sujetos sobre la controlabilidad de las consecuencias de la 
propia conducta. El efecto de indefensión aprendida consiste en que cuando 
los animales son sometidos a situaciones en las que tienen poco o ningún con- 
trol desarrollan una reacción emocional en la que manifiestan un comporta- 
miento pasivo ante dichas circunstancias o circunstancias parecidas. 


Un factor muy importante que influye en el aprendizaje por condiciona- 
miento operante es el de la demora del reforzamiento. La demora del refor- 
zamiento ocurre cuando existe un período de tiempo entre la respuesta que da 
lugar al reforzador y la entrega posterior del mismo. La demora en la entrega 
del reforzador dificulta el aprendizaje en los procedimientos de condiciona- 
miento instrumental y el procedimiento de marcado es una forma de evitar 
los efectos de la demora en la entrega del reforzador. Este procedimiento con- 
siste en marcar la respuesta haciendo que ésta pueda diferenciarse de otros 
eventos que ocurren durante el período de demora. 
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Finalmente, se ha visto como el procedimiento de devaluación del refor- 
zador consiste en asociar al reforzador que se está utilizando un estímulo o 
evento de naturaleza contraria. El efecto resultante de este procedimiento es 
una disminución de la respuesta operante que ha sido reforzada con el reforza- 
dor devaluado, aunque esta respuesta nunca haya sido contingente al estímulo 
aversivo. 
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TÉRMINOS DESTACADOS 


Castigo: Procedimiento de condicionamiento instrumental en el que se impo- 
ne una contingencia positiva con un evento de naturaleza aversiva. Este 
procedimiento tiene como resultado la disminución de la probabilidad de 
emisión de dicha respuesta. 


Castigo negativo o entrenamiento de omisión: Procedimiento de condicio- 
namiento operante en el cual se impone una contingencia negativa con una 
consecuencia de naturaleza apetitiva, dando lugar a una disminución de la 
probabilidad de aparición de dicha respuesta 


Clase de estímulos: Estímulos que varían en distintas características físicas 
pero que tienen el mismo efecto sobre la conducta. 


Clase de respuestas: Cualquier forma de ejecución de una conducta que tiene 
una función similar. 


Conducta supersticiosa: Conducta que es reforzada por la aparición azarosa 
de un reforzador. Fue explicada por Skinner mediante la idea del reforza- 
miento accidental o adventicio. 


Contraste conductual negativo: Disminución de la respuesta que tiene lugar 
cuando se presenta una recompensa desfavorable con respecto a una expe- 
riencia anterior con una consecuencia más favorable. 


Contraste conductual positivo: Aumento de la respuesta debido a una recom- 
pensa favorable como resultado de la experiencia anterior con una recom- 
pensa menos favorable. 


Control por el estímulo: Término que se refiere a como los estímulos que 
preceden una conducta pueden controlar la ocurrencia de esa conducta. 


Deriva instintiva: Tendencia de algunos animales a mostrar respuestas ins- 
tintivas que compiten con la respuesta requerida cuando son entrenados 
mediante procedimientos de condicionamiento operante. 


Devaluación del reforzador: Procedimiento que consiste en asociar al refor- 
zador que se está utilizando un estímulo o evento de naturaleza contraria. 
El efecto resultante de este procedimiento es una disminución de la res- 
puesta operante que ha sido reforzada con el reforzador devaluado, aunque 
esta respuesta nunca haya sido contingente al estímulo aversivo. 
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Efecto de indefensión aprendida: Consiste en que cuando los animales son 
sometidos a situaciones en las que tienen poco o ningún control desarrollan 
una reacción emocional en la que manifiestan un comportamiento pasivo 
ante dichas circunstancias o circunstancias parecidas. 


Escape: Procedimiento de condicionamiento operante en el que la respuesta 
instrumental detiene o elimina un evento o consecuencia de naturaleza 
aversiva y tiene como resultado un aumento de la tasa de respuesta. 


Evitación: Procedimiento de condicionamiento operante en el que la respuesta 
instrumental previene la aparición de un evento o consecuencia de natura- 
leza aversiva y tiene como resultado un aumento de la tasa de respuesta. 


Extinción: Procedimiento mediante el cual una respuesta que previamente se 
reforzaba se deja de reforzar, es decir, se deja de presentar la consecuencia 
que se presentaba anteriormente cuando la respuesta operante era emitida. 


Ley del Efecto: Principio de Aprendizaje enunciado por Thorndike «De las 
muchas respuestas dadas en la misma situación, las que vayan acompaña- 
das o inmediatamente seguidas de satisfacción para el animal, en igualdad 
de condiciones, se conectarán más firmemente con la situación; de manera 
que cuando ésta vuelva a presentarse, volverán a presentarse con gran pro- 


babilidad». 


Procedimiento de marcado: Es una forma de evitar los efectos de la demora 
en la entrega del reforzador. Este procedimiento consiste en marcar la res- 
puesta haciendo que ésta pueda diferenciarse de otros eventos que ocurren 
durante el período de demora. 


Reforzamiento positivo: También llamado entrenamiento de recompensa, es 
un procedimiento de condicionamiento instrumental en el que una conse- 
cuencia apetitiva se presenta de forma contingente a una respuesta y esto 
tiene como resultado un aumento de la tasa de respuesta. 


Reforzamiento secundario: Proceso por el que un estímulo o evento que 
originalmente no es reforzante puede adquirir capacidad de reforzamiento 
mediante la asociación repetida con otro que era previamente reforzante. 


Tasa de respuesta: Número de respuestas emitidas por unidad de tiempo. 


205 


PSICOLOGÍA DEL APRENDIZAJE 


REFERENCIAS 


ADaMs, C. D. (1982). Variations in the sensitivity of instrumental responding 
to reinforcer devaluation. The Quarterly Journal of Experimental Psychology 
Section B, 34, 77-98. 

ALFERINK, L. A.; CROSSMAN, E. K. y CHENEY, C. D. (1973). Control of responding 
by a conditioned reinforcer in the presence of free food. Animal Learning de 
Behavior, 1, 38-40. 

AMSEL, A. (1962). Frustrative nonreward in partial reinforcement and discrimina- 
tion learning: some recent history and a theoretical extension. Psychol Rev, 69, 
306-328. 

— (1992). Frustration theory : an analysis of dispositional learning and memory. 
Cambridge ; New York: Cambridge University Press. 

AZRIN, N. H.; HUTCHINSON, R. R. y HAKE, D. F. (1966). Extinction-induced aggres- 
sion. J Exp Anal Behav, 9, 191-204. 

BAXTER, D. A. y BYRNE, J. H. (2006). Feeding behavior of Aplysia: a model system 
for comparing cellular mechanisms of classical and operant conditioning. 
Learn Mem, 13, 669-680. 

BERMEJO, R.; ALLAN, R. W.; HOUBEN, A. D.; DEicH, J. D. y ZEIGLER, H. P. (1989). 
Prehension in the pigeon. I. Descriptive analysis. Exp Brain Res, 75, 569-576. 

BouToN, M. E. (1993). Context, time, and memory retrieval in the interference para- 
digms of Pavlovian learning. Psychol Bull, 114, 80-99, 

BouTon, M. E.; Topp, T. P.; VURBIC, D. y WINTERBAUER, N. E. (2011). Renewal after 
the extinction of free operant behavior. Learn Behav, 39, 57-67. 

BRELAND, K. y BRELAND, M. (1961). The misbehavior of organisms. American 
Psychologist, 16, 681-684. 

CoLwiLL, R. M. y RESCORLA, R. A. (1985). Postconditioning devaluation of a rein- 
forcer affects instrumental responding. Journal of Experimental Psychology: 
Animal Behavior Processes, 11, 120-132. 

CREsPI, L. P. (1942). Quantitative variation of incentive and performance in the 
white rat. American Journal of Psychology, 55, 467-517. 

CHoLiz, M. (2010). Experimental analysis of the game in pathological gamblers: effect 
of the immediacy of the reward in slot machines. J Gambl Stud, 26, 249-256. 
DICKINSON, A. y BALLEINE, B. (1993). Actions and responses: The dual psychology of 
behaviour. en Eilan, N.; McCarthy, R. y Brewer, B. (eds.), Spatial Representation. 

Oxford: Oxford University Press. 

EVERITrr, B. J.; BELIN, D.; ECONOMIDOU, D.; PELLOUX, Y.; DALLEY, J. W. y ROBBINS, T. W. 

(2008). Review. Neural mechanisms underlying the vulnerability to develop 


206 


PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE 


compulsive drug-seeking habits and addiction. Philos Trans R Soc Lond B Biol 
Sci, 363, 3125-3135. 

FaLLs, W. A. (1998). Extinction: A review of theory and the evidence suggesting 
that memories are not erased with nonreinforcement. Learning and behavior 
therapy, 205-229, 

HaJcaK, G.; MCDONALD, N. y SIMONS, R. F. (2004). Error-related psychophysiology 
and negative affect. Brain Cogn, 56, 189-197. 

HERRSTEIN, E. J. (1966). Superstition: A corollary of the principles of operant con- 
ditioning. In W. K. Honig (Ed.), Operant behavior: areas of research and applica- 
tion (pp. 33-51). New York: Appleton-Century-Crofts. 

Ison, J. R. (1962). Experimental extinction as a function of number of reinforce- 
ments. Journal of Experimental Psychology, 64, 314-317. 

KEINAN, G. (2002). The effects of stress and desire for control on superstitious beha- 
vior. Personality and Social Psychology Bulletin, 28, 102-108. 

KELLEHER, R. T. y GOLLUB, L. R. (1962). A review of positive conditioned reinforce- 
ment. J Exp Anal Behav, 5, 543-597. 

Klein, B. G., LaMon, B., é: Zeigler, H. P. (1983). Drinking in the pigeon (Columba 
livia): Topography and spatiotemporal organization. Journal of Comparative 
Psychology, 97, 178-181. 

LATTAL, K. A. (2010). Delayed reinforcement of operant behavior. J Exp Anal Behav, 
93, 129-139. 

LIEBERMAN, D. A.; McInTOSH, D. C. y THoMmas, G. V. (1979). Learning when reward 
is delayed: a marking hypothesis. J Exp Psychol Anim Behav Process, 5, 224-242. 

LORENZETTI, F. D.; BAXTER, D. A. y BYRNE, J. H. (2011). Classical conditioning ana- 
log enhanced acetylcholine responses but reduced excitability of an identified 
neuron. J Neurosct, 31, 14789-14793. 

MAsoRro, E. J. (1992). Retardation of aging processes by food restriction: an expe- 
rimental tool. Am J Clin Nutr, 55, 12508-12528. 

— (2005). Overview of caloric restriction and ageing. Mech Ageing Dev, 126, 913-922. 

MELLGREN, R. L. (1972). Positive and negative contrast effects using delayed rein- 
forcement. Learning and Motivation, 3, 185-193. 

MITCHELL, E. N.; MARSTON, H. M.; Nutr, D. J. y ROBINSON, E. S. (2012). Evaluation 
of an operant successive negative contrast task as a method to study affective 
state in rodents. Behav Brain Res, 234, 155-160. 

MYERSs, J. L. (1958). Secondary reinforcement: a review of recent experimentation. 
Psychol Bull, 55, 284-301. 

NEvIN, J. A. (1988). Behavioral momentum and the partial reinforcement effect. 
Psychological Bulletin, 103, 44-56. 


207 


PSICOLOGÍA DEL APRENDIZAJE 


PETERSON, C. (1993). Helpless behavior. Behav Res Ther, 31, 289-295. 

SELIGMAN, M. E. y MAIER, S. F. (1967). Failure to escape traumatic shock. J Exp 
Psychol, 74, 1-9. 

SELIGMAN, M. E. P. (1975). Helplessness: on depression, development, and death. San 
Francisco: W. H. Freeman. 

SENKOWSKI, P. C. (1978). Variables affecting the overtraining extinction effect 
in discrete-trial lever pressing. Journal of Experimental Psychology: Animal 
Behavior Processes, 4, 131-143. 

SHAHAN, T. A. y LATTAL, K. A. (2005). Unsignaled delay of reinforcement, relative 
time, and resistance to change. J Exp Anal Behav, 83, 201-219. 

SHETTLEWORTH, S. J. (1975). Reinforcement and the organization of behavior in 
golden hamsters: Hunger, environment, and food reinforcement. J Exp Psychol 
Anim Behav Process, 104, 56-87. 

SKINNER, B. F. (1938). The behavior of organisms. New York: Appleton-Century- 
Crofts. 

— (1948). Superstition in the pigeon. Journal of Experimental Psychology, 38, 168- 
172. 

— (1953). Science and human behavior. New York: Macmillan. 

— (1971). Beyond freedom and dignity ([1st ed.). New York: Knopf. 

STADDON, J. E. y SIMMELHAG, V. L. (1971). The «supersitition» experiment: A 
reexamination of its implications for the principles of adaptive behavior. 
Psychological Review, 78, 3-43. 

THORNDIKE, E. L. (1898). Animal intelligence: an experimental study of the 
associative processes in animals. Psychological Review Monograph, 2 (Whole 
N*.8). 

— (1911). Animal intelligence : experimental studies. New York: The Macmillan 
company. 

TomBAUGH, T. N. (1967). The overtraining extinction effect with a discrete-trial bar- 
press procedure. J Exp Psychol, 73, 632-634. 

WEINDRUCH, R. (1989). Dietary restriction, tumors, and aging in rodents. J Gerontol, 
44, 67-71. 

— (1996). The retardation of aging by caloric restriction: studies in rodents and 
primates. Toxicol Pathol, 24, 742-745. 

WEINDRUCH, R.; WALFORD, R. L.; FLIGIEL, S. y GUTHRIE, D. (1986). The retardation of 
aging in mice by dietary restriction: longevity, cancer, immunity and lifetime 
energy intake. J Nutr, 116, 641-654. 

WENZLAFF, R. M. y GROZIER, S. A. (1988). Depression and the magnification of fai- 
lure. J Abnorm Psychol, 97, 90-93. 


208 


PRINCIPIOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE 


WILLIAMS, J. y LiERLE, D. (1986). Effects of stress controllability, immunization, 
and therapy on the subsequent defeat of colony intruders. Animal Learning de 
Behavior, 14, 305-314. 

ZAPATA, A.; MINNEY, V. L. y SHIPPENBERG, T. S. (2010). Shift from Goal-Directed to 
Habitual Cocaine Seeking after Prolonged Experience in Rats. The Journal of 
Neuroscience, 30, 15457-15463. 


ZIMMERMAN, D. W. (1963). Functional laws and reproducible processes in behavior. 
Psychological Record, 13, 163-173. 


209 


TEMA 5 
PROGRAMAS Y TEORÍAS 
DEL REFORZAMIENTO 


Ricardo Pellón Suárez de Puga 


Departamento de Psicología Básica I, Facultad de Psicología. UNED 


1. Programas de reforzamiento .iicciciiciinincconnascconnaasssscos 


1.1. Programas básicos de reforzaMiento moins 
1.1.1. Programas de razón frente a programas de intervalo: 
funciones de retroalimentación occiso 
1.2. Programas de reforzamiento diferencial de tiempos entre 
MS 
1.2.1. Teoría del reforzamiento diferencial de los tiempos entre 
A II O 
1.3. Programas compuestos de reforzamiento ecc 
1.3.1. Programas alternantes y secuenciales: el control por el 
estímulo y el reforzamiento cCONdiciONAÍO oociiicciinicniannns. 
1.3.2. Programas simultáneos: programas concurrentes 
Y PEOERIDAS COMBIAAIOS. A 


2. Conducta de elección 0 


2.4.. La ley de leualación sorted miles iiaa 
2.2. Maximización: elección entre programas concurrentes 
A A 
23, Italación temporal triana narnia 
24. Ley generalizada de la igualación: sorna inn 
23 sonas de laienalación. ao 
2.6. Impulsividad y autocontrol: la elección con compromiso ........ 
2.7. La moción de valor de los relorzadores imss 
2.8. La tasa de respuesta en relación a la ley de igualación .............. 


PSICOLOGÍA DEL APRENDIZAJE 


3. La naturaleza de la asociación en el aprendizaje 


mstruncatal. cenit 261 
4. Reglas de ejecución Operadte ccoo 266 
4.1. Teoría de la probabilidad diferencial ...coccnicccinininnocmo. 267 
4.2. Teoría de la privación de Tespuesta mnmcicccinnninnaseccnos 270 
ReTerEntiaS: ia 280 


212 


PROGRAMAS Y TEORÍAS DEL REFORZAMIENTO 


CONOCIMIENTOS PREVIOS 


Castigo: Procedimiento del condicionamiento operante por el que las conse- 
cuencias de la conducta tienen como resultado la disminución de la proba- 
bilidad de emisión de dicha conducta, bien sea a través de la presentación 
contingente de consecuencias aversivas o de la retirada de consecuencias 
de naturaleza apetitiva. 


Conducta supersticiosa: Conducta que es reforzada por la aparición azaro- 
sa de un reforzador. Fue explicada por B. F. Skinner mediante la idea del 
reforzamiento accidental o adventicio. Otros autores la atribuyen a factores 
filogenéticos. 


Conductismo: Término que hace referencia a la teoría psicológica por la que 
se considera a la conducta como objeto de estudio en sí misma y que ha 
tomado diferentes interpretaciones (conductismos) a lo largo de la historia, 
destacando la distinción clásica entre neoconductismo (como en C. L. Hull) 
y conductismo radical (B. F. Skinner), o la más actual entre conductismo 
molar y molecular. 


Constructo hipotético: Entidad hipotética que se refiere a un concepto no 
observacional pues por definición los constructos no se pueden demostrar, 
no son directamente manipulables y se infieren de la observación de la 
conducta. 


Efectos de contraste: Disminuciones o aumentos de la respuesta debido a 
la experiencia anterior (o simultánea) con recompensas, respectivamente, 
más o menos favorables a la actualmente experimentada. 


Estímulos discriminativos: Estímulos que han adquirido cierto grado de 
control sobre la emisión de la conducta en virtud de que en su presencia 
la conducta ha sido seguida de consecuencias reforzantes o castigadoras. 


Reforzador: Evento ambiental (que puede ser un estímulo o la realización 
de una actividad) que programado de forma contingente a una respuesta 
incrementa su probabilidad futura. 


Reforzador (demora del): Manipulación experimental por la que se altera 
el intervalo temporal entre la emisión de la respuesta y la consecución del 
reforzador, resultando en una menor efectividad de los reforzadores cuanto 
más demorados (principio de contigúidad temporal). 
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Reforzador (magnitud del): Manipulación experimental por la que se altera la 
cantidad de reforzador que se entrega como consecuencia de la respuesta, 
de manera que normalmente resultan preferidos los reforzadores que sean 
más grandes. 


Reforzamiento condicionado: Proceso por el que un estímulo o evento que 
originalmente no es reforzante puede adquirir capacidad de reforzamiento 
mediante la asociación repetida con otro que era previamente reforzante. 


Reforzamiento positivo: También llamado entrenamiento de recompensa, 
es un procedimiento del condicionamiento operante por el que una conse- 
cuencia apetitiva se presenta de forma contingente a una respuesta y esto 
tiene como resultado un aumento de la respuesta. 


Respuesta operante: Acción que lleva aparejada una consecuencia, que puede 
ser apetitiva o aversiva, y que se define por su función más que por su topo- 
grafía. 


Tasa de reforzamiento: Número de reforzadores obtenidos por unidad de 
tiempo. 


Tasa de respuesta: Número de respuestas emitidas por unidad de tiempo. 


Variable interviniente o intermedia: Es una variable que no se refiere a 
factores de causa o efecto pero que modifica (interviene) en las relaciones 
de otras variables, lo que aplicado a la teoría psicológica sería suponer la 
intervención de procesos no directamente observables pero que se pueden 
hacer operacionales con el fin de ser manipulados experimentalmente. 


PROGRAMAS Y TEORÍAS DEL REFORZAMIENTO 


OBJETIVOS 
e Conocer los principales programas de reforzamiento, tanto básicos como 
compuestos. 


e Distinguir los programas de razón y de intervalo, teniendo en cuenta si son 
fijos o variables. 


e Conocer los patrones conductuales que generan los distintos programas de 
reforzamiento. 


e Conocer los programas de reforzamiento diferencial de tasas de respuesta y 
la teoría del reforzamiento diferencial de los tiempos entre respuestas. 


e Conocer los fundamentos de la ley de igualación, las variables que relaciona 
y cómo predice la conducta en diferentes circunstancias de elección. 


e Conocer los principales estudios sobre “autocontrol” y el uso de programas 
concurrentes encadenados. 


e Conocer las relaciones asociativas estímulo-respuesta y estímulo-consecuen- 
cia como potencialmente responsables del aprendizaje instrumental. 


e Conocer el principio de Premack y los principales conceptos relacionados 
con la regulación conductual, como el punto de bienestar y la distribución 
de la respuesta. 
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Los programas de reforzamiento han sido una de las áreas de investiga- 
ción más activas del condicionamiento operante, donde se puede apreciar 
la relación funcional existente entre el estímulo discriminativo, la respuesta 
operante y el reforzador (Ferster y Skinner, 1957). Constituyen, pues, uno 
de los determinantes más importantes de la conducta y aquí explicaremos 
sus principales características. 


1.1. Programas básicos de reforzamiento 


La forma en que se programan los reforzadores contingentemente con 
la emisión de una respuesta operante constituyen los programas de refor- 
zamiento. Cada uno de los programas de reforzamiento especifica una regla 
que determina las condiciones en las que una respuesta puede ser reforza- 
da. Normalmente no se refuerzan todas las respuestas que emiten los suje- 
tos experimentales, tan sólo algunas de ellas lo son. La conducta producida 
en circunstancias como ésta se dice que se ha aprendido bajo un programa 
intermitente de reforzamiento, y el reforzamiento intermitente o parcial 
es, de hecho, lo que generalmente mantiene todo comportamiento condi- 
cionado de forma operante. Así, por ejemplo, no siempre que nos atraiga 
una persona tendremos éxito en nuestras proposiciones para establecer una 
relación personal. El reforzamiento parcial, en comparación con el refor- 
zamiento continuo, produce un aprendizaje más duradero, que posterior- 
mente resulta más difícil de extinguir. La mayor resistencia a la extinción 
después del reforzamiento parcial ha sido motivo de un extenso trabajo 
experimental (véase más información en el Capítulo 4), a la vez que se han 
propuesto diferentes hipótesis explicativas para el efecto del reforzamiento 
parcial en la extinción (como revisiones consultar Lewis, 1960; Robbins, 
1971). El análisis experimental de los programas de reforzamiento, sin em- 
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bargo, se ha centrado principalmente en sus efectos sobre la adquisición, 
por lo que será en la adquisición y no en la extinción donde consideraremos 
los efectos diferenciales de los programas de reforzamiento (consultar las 
revisiones de Morse, 1966; Zeiler, 1977). 


Se han investigado muy diferentes formas de programar los reforzadores 
de forma intermitente, habiéndose destacado que los programas principales 
y más básicos de reforzamiento positivo intermitente se pueden clasificar en 
dos grandes bloques: programas de razón y programas de intervalo. En pala- 
bras de Ferster y Skinner (1957), autores de un texto clásico que compila un 
conjunto de experimentos sobre las diversas formas de programar la entrega 
de los reforzadores: «Un programa de reforzamiento puede definirse sin refe- 
rencia a sus efectos sobre la conducta. De esta manera, una respuesta puede 
ser reforzada en base al tiempo que ha transcurrido desde que se administró 
el reforzador precedente, o en base al número de respuestas que han sido 
emitidas desde que se administró el anterior reforzador. Un programa dado 
puede ser fijo o puede variar, ya sea al azar, ya sea de acuerdo con un plan. 
Estas dos posibilidades suministran cuatro programas básicos: intervalo fijo, 
intervalo variable, razón fija y razón variable. Pero otras posibilidades exis- 
ten, así como muchas combinaciones de tales programas» (p. 2). 


Los programas de razón estipulan que se debe emitir un determinado 
número de respuestas antes de que la última de ellas sea reforzada. Los 
programas de intervalo establecen que debe pasar un determinado tiem- 
po desde la consecución del reforzador anterior antes de que la respuesta 
requerida sea de nuevo reforzada. El requisito del número de respuestas 
en los programas de razón, o del tiempo transcurrido en los programas de 
intervalo, es a partir de la ocurrencia del reforzador anterior (véase la cita 
anterior de Ferster y Skinner). 


Los programas de razón y de intervalo pueden a su vez clasificarse en 
programas variables y programas fijos, resultando de esta combinación, y 
como se ha dicho antes, cuatro programas básicos de reforzamiento: razón 
fija, razón variable, intervalo fijo e intervalo variable. 


En un programa de razón fija, el número de respuestas requerido para 
que se administre el reforzador siempre es el mismo, de manera que consis- 
tentemente se tiene que dar el mismo número de respuestas para conseguir 
cada reforzador. Los programas de razón fija se abrevian por la sigla RF 
seguida de un número que indica el valor del número de respuestas requeri- 
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do, por ejemplo RF-50. El programa RF-1 es lo que anteriormente denomi- 
namos como reforzamiento continuo, al ser reforzada cada respuesta. Un 
programa de razón variable requiere un número de respuestas que varía 
de una ocasión a la siguiente de manera irregular alrededor de un número 
promedio de respuestas por cada reforzador y se abrevian por la sigla RV, 
de manera que por ejemplo en un programa RV-100 se conseguirá el re- 
forzador si en promedio se han emitido cien respuestas, en unas ocasiones 
más y en otras menos, resultando 100 como valor medio. 


Los programas de intervalo fijo son aquellos que, al mantener cons- 
tante el tiempo requerido para que se entregue el siguiente reforzador, 
reforzarán la primera respuesta que ocurra después de que haya transcu- 
rrido un tiempo siempre igual desde que se dispensó el anterior reforzador; 
mientras que los programas de intervalo variable son aquellos donde varía 
la cantidad de tiempo necesaria que deber transcurrir entre un reforzador 
y el siguiente antes de que una respuesta sea reforzada, dando lugar a un 
valor promedio de intervalo entre reforzadores. Los programas de interva- 
lo, como los de razón, se pueden abreviar con las siglas IF e IV, respectiva- 
mente, seguidas del valor numérico que indica la cantidad de tiempo que 
necesariamente debe transcurrir, por ejemplo IF 60-seg o IV 60-seg. 


Cada uno de estos cuatro programas básicos de reforzamiento produce 
una ejecución conductual característica y diferente, que puede ser aprecia- 
da a simple vista examinando la forma cómo se distribuyen las respuestas a 
lo largo del tiempo. Una forma de registrar las respuestas de manera auto- 
mática y continuada es con un registrador acu- 
mulativo. El registrador acumulativo consiste 
en un rollo de papel que, gracias a la acción de 
un pequeño motor, gira a velocidad constante 
a lo largo de un rodillo (hoy existen versiones 
informáticas que han sustituido a estos viejos 


Ejemplo 


Ejemplos cotidianos 
del funcionamiento de 
los programas básicos 
de reforzamiento son el 
trabajo a destajo (RF), 


aparatos de registro). Sobre el papel se apoyan 
dos plumillas que van dibujando determinadas 
líneas a medida que éste avanza. Como se pue- 
de apreciar en la Figura 5.1., la primera plu- 
milla sirve para medir las respuestas del sujeto 
experimental. Cuando se registra una respues- 
ta, la pluma se mueve verticalmente una deter- 
minada distancia desde su posición inicial. En 


los juegos de azar (RV), 
el tiempo dedicado a es- 
tudiar en base a fechas 
programadas de examen 
(IF) y el chequear repeti- 
damente el correo elec- 
trónico mientras se está 
usando internet (IV). 
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la Figura 5.1. se ve cómo las respuestas se van acumulando a lo ancho del 
papel (el eje de ordenadas), siendo el largo del mismo (el eje de abscisas), 
el tiempo transcurrido. De esta forma se obtiene, acumulando, un registro 
directo de la conducta del sujeto experimental en función del tiempo. En 
los registros acumulativos resultantes se puede medir, por tanto, el número 
de respuestas (veces que la pluma se mueve hacia arriba) y el número de 
pausas (veces que la pluma no se mueve). También se puede medir el tiem- 
po transcurrido entre una respuesta y la siguiente (TER: tiempo entre res- 
puestas) o el tiempo total empleado en responder o en estar sin responder, 
así como la perseverancia, índice que relaciona proporcionalmente ambos 
periodos temporales (tiempo empleado en estar respondiendo dividido por 
el tiempo que se ha estado sin responder). El resultado de registrar las res- 
puestas de esta manera es una curva acumulativa continua que refleja la 
tasa de respuesta (el número de respuestas por unidad de tiempo) en cual- 
quier momento de un experimento de condicionamiento operante. 


La capacidad del re- 
gistrador acumulativo, sin 
de las respuestas Plumilla marcadora embargo, no se limita ex- 

de los estímulos 
discriminativos Clusivamente a registrar el 
número de respuestas. Pue- 
de, al mismo tiempo, dejar 
constancia de la ocurrencia 
de otros sucesos ambien- 
Rollo de papel tales. Los reforzadores se 
suelen indicar mediante un 
desplazamiento descenden- 
te de la misma plumilla 
utilizada para registrar las 
respuestas, resultando en 
una pequeña marca diago- 
nal en el papel. Una segun- 
da plumilla, fija a lo largo 
de la base del papel, se 
utiliza normalmente para 
señalar la presentación de 
los estímulos discriminati- 
vos. En la Figura 5.1. tam- 


Plumilla marcadora 


Reforzadores ——» 


HS uestas 


Figura 5.1. Dibujo esquemático que representa 
un registrador acumulativo. 
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bién se pueden observar registros de los estímulos discriminativos y de los 
reforzadores. 


La observación de la forma cómo se distribuyen las respuestas en un re- 
gistro acumulativo permite una lectura fácil de la tasa de respuesta y de los 
cambios asociados a ella que ocurren en función del tiempo. Dado que el 
papel avanza a una velocidad constante, cuando se responde rápidamente 
(a una tasa alta de respuesta), el registro será muy inclinado. Si por el con- 
trario, la tasa de respuesta fuera muy baja, el registro sería prácticamente 
plano; resultando en un registro con una pendiente intermedia cuando la 
tasa de respuesta sea de un valor medio. El registrador acumulativo, por 
tanto, presenta ciertas ventajas con respecto a otras técnicas de medida. 
Se pueden medir las respuestas incluso cuando estas ocurren muy rápi- 
damente y registrar estructuras complejas de comportamiento sin perder 
detalles de cambios relativamente pequeños en la conducta. Los registros 
acumulativos proporcionan una medición no contaminada de las respues- 
tas de los sujetos experimentales durante periodos prolongados de tiempo, 
resultando que en cada uno de los programas de reforzamiento la ejecución 
conductual en los registros acumulativos es distintiva y peculiar. Aunque su 
uso como forma de informar de resultados experimentales ha disminuido 
en estos últimos años, es muy útil en el trabajo diario del laboratorio por 
las razones anteriormente señaladas. 


En la Figura 5.2. se representan los registros acumulativos más caracte- 
rísticos de los programas de RF, RV, IF e IV. 


Los programas de RV (panel b) proporcionan tasas de respuesta muy 
altas y constantes, que a veces se aproximan a los límites de capacidad 
física de los organismos. Los programas de IV (panel d) también propor- 
cionan tasas constantes de respuesta, aunque comúnmente son de un valor 
inferior a las producidas por los programas de RV. Ambos programas, por 
consiguiente, y de manera contraria a los programas fijos, proporcionan un 
índice de perseverancia muy elevado. 


La ejecución en un programa de RF (panel a) se caracteriza inicialmente 
por una tasa elevada de respuesta, que se mantiene desde la primera res- 
puesta después de haber obtenido el reforzador hasta la siguiente respuesta 
reforzada. Esta ejecución alta y estable de conducta se desarrolla rápida- 
mente cuando la razón es relativamente pequeña. Sin embargo, cuando la 
razón es mayor, por ejemplo RF-50 como la representada en la Figura 5.2., 
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Figura 5.2. Registros acumulativos característicos de los programas básicos de 
condicionamiento operante. Para cada gráfica, el eje vertical es el número de respuestas 
y el eje horizontal el tiempo en segundos. El reforzador se indica por una ligera marca 
diagonal, y en los programas de intervalo por las líneas verticales que interseccionan con 
los tiempos en el eje de abcisas y en los programas de razón por las líneas horizontales 
que interseccionan con el número de respuestas en el eje de ordenadas. RF: Razón Fija; 
RV: Razón Variable; IF: Intervalo Fijo; IV: Intervalo Variable. 
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también se observa una pausa post-reforzamiento que se sigue de una tran- 
sición casi instantánea a una tasa alta de respuesta posterior (la carrera de 
la razón), lo que en inglés ha servido para describir la ejecución conductual 
en los programas de RF como de “Break and Run” (parada y carrera). La 
duración de la pausa post-reforzamiento en los programas de RF depende, 
principalmente, del valor de la razón. Si el requisito de la razón fuese muy 
elevado, se puede dejar de responder por completo, lo que se denomina 
tensión de la razón. 


La ejecución en un programa de IF (panel c) se caracteriza por una 
pausa post-reforzamiento más o menos prolongada en función de la dura- 
ción del intervalo, y por una progresiva aceleración posterior de la tasa de 
respuesta en cada uno de los intervalos, de manera que la tasa mayor de 
respuesta se produce cerca del final del intervalo. Esta pauta de conducta, 
como la representada en la Figura 5.2. para un programa de IF-60 seg, es 
frecuentemente referida como festoneado, para resaltar así la existencia 
de cambios sistemáticos en la tasa de respuesta. En los programas de TF, 
la tasa global de respuesta no parece ser el mejor indicador de la ejecución 
conductual en estos programas de reforzamiento. Como se ha señalado, la 
tasa de respuesta aumenta progresivamente en cada uno de los intervalos a 
medida que avanza el tiempo, y estos cambios son lo genuinamente carac- 
terístico de los programas de IF. El patrón de respuestas en un programa 
de IF refleja un proceso de discriminación temporal, de manera que los 
animales responden cuando «subjetivamente» consideran que es altamente 
probable la consecución del reforzador. 


La diferencia fundamental entre los programas fijos (RF e TF) y los 
variables (RV e IV) es que en los primeros, de forma contraria a los segun- 
dos, suele aparecer una pausa tras cada reforzamiento. La diferencia fun- 
damental entre un programa de RF y uno de IF es que en la ejecución del 
primero se pasa de la pausa post-reforzamiento a una tasa alta y estable de 
respuesta, mientras que en IF se pasa de la pausa post-reforzamiento a una 
aceleración gradual en la tasa de respuesta hasta alcanzar una tasa alta al 
final del intervalo. 


En los programas de intervalo, una vez que la recompensa está disponible 
(porque se ha cumplido el intervalo de tiempo estipulado), el sujeto puede 
recibirla en cualquier momento a partir de entonces, con tal de que dé la res- 
puesta requerida. Sin embargo, en muchas ocasiones esta disponibilidad del 
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reforzador es limitada en el tiempo: se puede estipular un tiempo limitado 
para conseguir el reforzador. Esta clase de restricción del tiempo que está 
disponible la recompensa («esperando a que se dé la respuesta») se llama 
duración limitada. Las restricciones por duración limitada se pueden apli- 
car tanto a los programas de intervalo fijo como a los de intervalo variable. 


La duración de la pausa post-reforzamiento que ocurre en los pro- 
gramas de RF se incrementa sistemáticamente a medida que aumenta el 
requisito de la razón (Felton y Lyon, 1966; Powell, 1968). De igual forma, la 
duración de la pausa post-reforzamiento está directamente relacionada con 
la longitud del programa de TF, de manera que a mayor duración del inter- 
valo mayor será la pausa (p. ej., Zeiler y Powell, 1994). En los programas 
de razón, a medida que se aumenta el requisito del número de respuestas, 
se aumenta también el intervalo entre reforzadores, dado que se tarda más 
en completar las respuestas necesarias para conseguir el reforzador. Killeen 
(1969) mostró que la duración de la pausa post-reforzamiento en los pro- 
gramas de RF depende más de la frecuencia de reforzamiento (que viene 
determinada por el intervalo temporal entre los reforzadores) que del pro- 
pio requisito del programa en cuanto al número de respuestas a realizar. 


En los programas de razón, la duración de la pausa está determinada 
más por el programa que se va a completar que por el que ha ocurrido 
inmediatamente antes, como se ha comprobado en estudios donde se han 
utilizado programas múltiples de RF (Baron y Herpolsheimer, 1999; Cross- 
man, 1968). En dichos estudios se han utilizado dos programas de RF de 
diferente longitud, siendo el inicio de cada uno de ellos señalado por una 
clave discriminativa distinta (un programa múltiple, como se verá más 
adelante). Los programas se pueden disponer en cuatro series secuenciales 
distintas en base a la longitud corta o larga de la razón. Así, las transiciones 
de uno a otro programa de RF pueden ser: corta-corta, larga-larga, cor- 
ta-larga, larga-corta. Si el programa que va a ocurrir es el responsable de la 
longitud de la pausa, se deben esperar pausas más largas en las secuencias 
corta-larga y larga-larga que en las secuencias corta-corta y larga-corta, por 
cuanto el requisito del programa que se tiene que completar es mayor en 
los primeros casos que en los segundos. Si el programa que ya ha ocurrido 
fuera el responsable de la pausa subsiguiente, las pausas más largas de- 
berían ocurrir cuando el programa precedente hubiera sido una RF larga, 
como en las secuencias larga-larga y larga-corta. Los resultados parecen 
comprobar que la longitud de la pausa post-reforzamiento está mejor pre- 
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dicha por el programa de RF que va a ocurrir que por el que ya ha ocurrido, 
y esto puede ser debido a que las RF más largas incrementan la separación 
entre las respuestas iniciales y el reforzador que ocurre al final de la serie 
de respuestas, de manera que es más contiguo con las últimas respuestas 
que con las primeras (Mazur, 1998). En los programas de intervalo, la pau- 
sa post-reforzamiento tiende a ajustarse proporcional y rápidamente a los 
cambios en la frecuencia de reforzamiento (p. ej., Higa, Wynne y Staddon, 
1991; Lejeune, Ferrara, Simons y Wearden, 1997). 


Aunque en principio pueda parecer paradójico, las variables de control 
sobre la longitud de la pausa post-reforzamiento no son tan diferentes en 
los programas de intervalo y en los programas razón, y eso a pesar de que 
en los programas de razón el dejar de responder lleva a una pérdida efectiva 
de reforzadores (cuanto más rápido se responda más reforzadores se ob- 
tendrán), siendo la frecuencia de reforzamiento y el programa que se acaba 
de iniciar determinantes fundamentales. ¿Son en todos los aspectos los 
programas de razón y de intervalo explicables por los mismos mecanismos? 


1.1.1. Programas de razón frente a programas de intervalo: 
funciones de retroalimentación 


Cuando se igualan las tasas y patrones de reforzamiento, la tasa de res- 
puesta suele ser mayor en los programas de razón que en los de intervalo 
(Baum, 1993; Catania, Matthews, Silverman y Yohalem, 1977; Cole, 1994; 
Peele, Casey y Silberberg, 1984). Esto se ha investigado mediante un proce- 
dimiento que asigna un valor de intervalo a un programa de reforzamiento 
en función de lo que hayan tardado los animales en completar previamente 
un programa de razón (midiendo el tiempo que les haya llevado realizar 
todas las respuestas requeridas: véase posteriormente la descripción de 
programa entrelazado en el Apartado 1.3.2.). De esta manera los programas 
de intervalo y de razón se equiparan en cuanto al número de reforzadores 
obtenidos y en cuanto a la distribución de los mismos. En la Figura 5.3. se 
representan registros típicos de programas de RV e IV acoplados de esta 
manera (las líneas discontinuas verticales indican el momento de ocurren- 
cia de los reforzadores, que como se puede ver coinciden en los dos pro- 
gramas) y, como se puede apreciar, el programa de RV generó una tasa de 
respuesta mucho más alta que el programa de IV. 
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Figura 5.3. Registros acumulativos de programas de razón variable e intervalo variable 
acoplados en cuanto a la frecuencia y patrón de reforzamiento (indicado por las marcas 
diagonales en los registros y por las líneas verticales discontinuas que los relacionan). 
(Adaptado de Benjumea, S., Programas de reforzamiento y conducta de elección, en 
Pineño, O., Vadillo, M.A., y Matute, H. Psicología del aprendizaje, Badajoz: Abecedario, 
2007). 


En los programas de intervalo, la tasa de respuesta no influye directa- 
mente sobre la frecuencia de administración de los reforzadores (la tasa 
de reforzamiento), mientras que la tasa de reforzamiento varía de manera 
directa con los cambios en la tasa de respuesta en los programas de razón 
(comparar las líneas verticales que interseccionan con el eje de abscisas 
en los paneles c y d de la Figura 5.2., con las líneas horizontales que inter- 
seccionan con el eje de ordenadas en los paneles a y b). Una explicación 
de estas diferencias es que los programas de intervalo (particularmente 
IV) tienden a reforzar TER largos, porque el mero paso del tiempo lleva 
a un incremento en la probabilidad de reforzamiento. Dado que en los 
programas de IV se generan TER largos, éstos se reforzarán y llegarán a 
predominar, reduciendo así la tasa de respuesta (Anger, 1956; Cole, 1999). 
Los programas de razón (particularmente RV) no presentan la tendencia de 
reforzar diferencialmente un TER particular y, por tanto, no favorecen la 
ocurrencia de TER largos. Es más, dada la tendencia a responder en ráfagas 
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de respuestas se hace más probable que el reforzador actúe sobre TER cor- 
tos. Baum (1989) ha denominado este tipo de explicación como molecular, 
porque un acontecimiento que puede ocurrir en un determinado momento, 
en este caso el reforzamiento de un TER, es suficiente para producir un 
efecto. El mecanismo explicativo implicado sería las variaciones momento 
a momento en la contigúidad respuesta-reforzador. 


Una segunda forma de explicar las diferentes tasas de respuesta gene- 
radas por los programas de razón y de intervalo parte de que en los pro- 
gramas de RV existe una correlación directa entre la tasa de respuesta y la 
tasa de reforzamiento (Baum, 1973; Rachlin, 1978). La tasa de respuesta 
tenderá a aumentar para maximizar la tasa de reforzamiento. En los pro- 
gramas de IV, sin embargo, no existe virtualmente ninguna relación entre la 
tasa de respuesta y la tasa de reforzamiento. Por mucho que se incremente 
la tasa de respuesta, la tasa de reforzamiento sufrirá poca variación. Baum 
(1989) ha denominado este tipo de explicación como molar, porque las 
variables efectivas —la tasa de reforzamiento y su dependencia de la tasa 
de respuesta— son fenómenos temporalmente extensos, haciendo énfasis 
en la correlación frente a la contigúidad. Las correlaciones entre la tasa 
de respuesta y la tasa de reforzamiento han sido denominadas funciones 
de retroalimentación (véase posteriormente el apartado sobre conducta de 
elección). 


Las relaciones entre la conducta y el ambiente, como las establecidas 
por los programas de reforzamiento, se pueden describir, por tanto, en 
términos de funciones de retroalimentación (Baum, 1973, 1992; Nevin y 
Baum, 1980). Una función de retroalimentación es una descripción de 
la forma en que actúa el ambiente, como la frecuencia de reforzamiento, 
la magnitud del reforzador, o la demora al reforzador, en función de algún 
aspecto de la ejecución conductual. Las funciones de retroalimentación no 
asumen que la conducta esté bajo el control de una variable independiente, 
simplemente que la conducta afectará a algún aspecto del ambiente. Los as- 
pectos de la conducta y del reforzamiento son variables dependientes, que 
se relacionan por funciones de retroalimentación, pero que no necesaria- 
mente tienen por qué mantener una relación causal (véase posteriormente 
la ley de igualación). En el condicionamiento operante, la obtención de los 
reforzadores programados depende de la emisión de la respuesta criterio, 
y así la tasa de reforzamiento obtenida es también una medida de una eje- 
cución eficiente. 
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La función de retroalimentación de la tasa de reforzamiento para la tasa 
de respuesta en un programa de RF que requiera N respuestas por reforza- 
dor es R = B/N, donde R es la tasa de reforzamiento obtenido y B es la tasa 
de respuesta emitida. El resultado de aplicar esta ecuación para diferentes 
programas de RF se representa en el panel superior de la Figura 5.4. La 
tasa de reforzamiento que obtiene el sujeto es proporcional a la tasa de res- 
puesta realizada, y la proporcionalidad es el requisito de la razón. Cuanto 
más rápido se responda, mayor será la tasa de reforzamiento, y el número 
de respuestas requeridas para producir incrementos en la tasa de reforza- 
miento debe aumentar conforme se incrementa el requisito de la razón. 
La misma ecuación puede aplicarse para los programas de RV. Dado que 
la ejecución en los programas de RF y RV es diferente, deben existir otras 
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variables controladoras, para las que también se pueden postular funciones 
de retroalimentación. 


Las funciones de retroalimentación que relacionan la tasa de respuesta 
y la tasa de reforzamiento son más difíciles de calcular para los programas 
de intervalo. Por ejemplo, en los programas de IV (y también en los de IF) 
la forma de la función es hiperbólica, como las representadas en el panel 
inferior de la Figura 5.4. Los cambios en la tasa de respuesta a tasas bajas 
de respuesta afectarán mucho a las tasas de reforzamiento, pero cuando las 
tasas de respuesta sean altas, los cambios en la tasa de respuesta tendrán 
poco efecto sobre la tasa de reforzamiento. Cuanto más corto es el progra- 
ma de IV existe un mayor margen para que pequeños incrementos en las 
tasas bajas de respuesta produzcan incrementos sustanciales en la tasa de 
reforzamiento. Las funciones se aplanan a partir de una tasa de respuesta, 
porque por mucho que se responda la tasa máxima de reforzamiento no 
puede aumentar más que el valor especificado por el programa de intervalo. 


El que en los programas de intervalo existan áreas aplanadas en las 
funciones de retroalimentación indica que el control diferencial de la con- 
ducta es bastante débil, las contingencias de reforzamiento no empujan la 
conducta en ninguna dirección. Esta es la diferencia fundamental entre 
los programas de intervalo y los programas de razón, como se vio con 
anterioridad. Si la tasa de reforzamiento tiene una función de retroalimen- 
tación plana, o relativamente plana, con la conducta, el punto en el que 
las variables dependiente e independiente llegan a la semiestabilidad es 
bastante impredecible en base al conocimiento del valor actual de la tasa 
de reforzamiento. Es por esta razón que los programas de intervalo generan 
una mayor variabilidad entre sujetos en la tasa de respuesta, es decir, se 
encontrarán más diferencias individuales en la tasa de respuesta entre unos 
animales y otros bajo programas de intervalo que de razón. 


El ejemplo paradigmático de una función de retroalimentación plana 
es el experimento de superstición (véase el Capítulo 4), donde no hay con- 
tingencia programada entre la ocurrencia o no de la respuesta y la presen- 
tación del reforzador, ni por supuesto entre la tasa de respuesta y la tasa 
de reforzamiento. Sin entrenamiento explícito, los animales desarrollan 
conductas de carácter innato que son específicas de la especie (Skinner, 
1948; Staddon y Simmelhag, 1971), que pueden considerarse resultado de 
la operación de historias conductuales remotas. 
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Ejemplo 


Ejemplo de progra- 
ma RDA sería contes- 
tar un cuestionario con 
tiempo límite para ca- 
da pregunta, de manera 
que si no se respondiese 
a una pregunta en el 
tiempo especificado se 
saltaría a la siguiente, 
forzándose a responder 
antes de que venza el 
tiempo estipulado. En 
los partidos de tenis, 
hay un tiempo máximo 
para poder efectuar el 
saque sin ser penaliza- 
do, esta limitación de 
tiempo también define 
una contingencia RDA. 
El ser impacientes con 
la preparación de la co- 
mida en el horno o en 
la sartén puede hacer 
que retirarla antes de 
tiempo lleve a que se 
tenga que volver a ini- 
ciar la acción de calen- 
tar la vitrocerámica o el 
horno, lo que retrasaría 
su preparación final. Es- 
ta contingencia sería de 
RDB. Ejemplos de pro- 
gramas RDB se pueden 
encontrar también en 
la coordinación de los 
pasos de baile o de los 
instrumentos musicales, 
cualquier aceleración en 
la conducta lleva a un 
resultado no reforzado 
(sino castigado). 
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1.2. Programas de reforzamiento diferen- 
cial de tiempos entre respuestas 


Hemos visto en el apartado anterior que en la 
diferente ejecución en los programas de razón e 
intervalo puede estar implicado el reforzamien- 
to diferencial de los TER. Para probar que el 
reforzamiento diferencial de los TER es posible 
se diseñaron programas de reforzamiento espe- 
cíficos a tal fin, reforzando específicamente TER 
cortos y TER largos. El diseño básico de estos 
programas es elegir un tiempo determinado 
y reforzar únicamente los TER que sean más 
largos que ese tiempo, lo que viene a definir los 
programas de Reforzamiento Diferencial de 
tasas Bajas de respuesta (RDB), o los TER 
más cortos que el tiempo elegido, lo que viene 
a definir los programas de Reforzamiento Di- 
ferencial de tasas Altas de respuesta (RDA). 


Los programas RDB se diferencian de los 
programas de IF en que, en los programas RDB 
sólo se refuerza la respuesta si ha transcurri- 
do un tiempo especificado desde la anterior 
respuesta (un TER), mientras que en los pro- 
gramas de IF la respuesta es reforzada si ha 
transcurrido un tiempo determinado desde el 
anterior reforzador. Ello implica que en los pro- 
gramas RDB se añade una contingencia de cas- 
tigo para las respuestas que ocurren con ante- 
rioridad al tiempo especificado por el programa. 
De esta forma, cualquier respuesta prematura 
reinicia el intervalo de tiempo especificado por 
el programa RDB. La única manera de obtener 
el reforzador es, por tanto, refrenar la respuesta 
por un tiempo y emitirla una vez transcurrido 
dicho intervalo temporal. Esta pequeña mo- 
dificación resulta en una ejecución operante 
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radicalmente diferente de la que se obtiene bajo un programa de IF. Nótese 
que la contingencia añadida para las respuestas que ocurren antes de trans- 
currir el tiempo especificado debe ser considerada como un procedimiento 
de castigo, por cuanto la consecuencia de la respuesta es la presentación de 
un tiempo-fuera de reforzamiento positivo, pero para la obtención del refor- 
zador sigue siendo necesario emitir la respuesta criterio (en el procedimiento 
de entrenamiento de omisión, como se vio en el Capítulo 4, el reforzador se 
presenta contingente con la no ocurrencia de la respuesta criterio). 


El reforzador también se puede hacer contingente con la respuesta si 
esta ocurre antes de que haya transcurrido un tiempo determinado, lo que 
define el programa RDA. Aquí se refuerzan específicamente TER cortos, 
frente al reforzamiento diferencial de TER largos que ocurría en los progra- 
mas RDB. En concreto, en un programa RDA se obtendrá el reforzador si se 
responde antes de que transcurra un tiempo especificado, y las respuestas 
que ocurran después de ese intervalo temporal simplemente reinician el 
intervalo (son diferencialmente castigadas). Es por ello que con este tipo 
de programa de reforzamiento se obtienen tasas altas de respuesta. La 
ejecución en los programas RDA es más fácil que en los programas RDB, 
ya que es dificultoso el entrenamiento de reforzar específicamente una res- 
puesta pero que no se haga de forma repetida. Esta dificultad para esperar 
a dar la respuesta en los programas RDB se puede deber a la inducción de 
respuestas por el reforzamiento espaciado (Killeen y Pellón, 2013) y/o a la 
degradación del valor del reforzador por encontrarse precisamente demo- 
rado desde la emisión de la respuesta criterio (ver Mazur, 2001). 


1.2.1. Teoría del reforzamiento diferencial de los tiempos 
entre respuestas 


Como se ha visto, los reforzadores no sólo refuerzan ejecutar una deter- 
minada respuesta, refuerzan también el hacerlo a un determinado ritmo, con 
un determinado espaciamiento entre respuestas. La teoría del reforzamiento 
diferencial de los TER se basa en ese hecho para afirmar, como ya hemos 
visto anteriormente, que en todos los programas de condicionamiento ope- 
rante se refuerzan específicamente TER de una duración determinada. De 
acuerdo con esta teoría, en cada uno de los programas de reforzamiento se 
debería reforzar el TER que ocurre precisamente antes de la administración 
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del reforzador, siendo este TER el tiempo que transcurre entre la penúltima 
respuesta emitida en un intervalo entre reforzadores y la última respuesta 
que es la que directamente va seguida del reforzador. Los programas RDB y 
RDA están específicamente diseñados para reforzar, respectivamente, TER 
de duración larga y de duración corta. Sin embargo, en los programas de 
reforzamiento operante el sujeto experimental puede normalmente respon- 
der libremente en los periodos entre reforzadores, pero de suyo el patrón y 
la tasa de respuesta se ajustan al tipo de programa de reforzamiento que está 
en funcionamiento. Así, se ha visto que dependiendo de si los reforzadores 
se administran de acuerdo a programas de razón o intervalo, cambiaba la 
ejecución de los sujetos experimentales, de la misma manera que la ejecución 
de los sujetos también depende de si estos programas son fijos o variables. 
Los programas RV e IV consiguen una tasa de respuesta muy constante, esto 
es, sin pausas post-reforzamiento, con lo que la duración de los TER es muy 
homogénea y es fácil atribuir dicha ejecución al reforzamiento diferencial de 
los TER de una duración determinada (más largos en los programas de inter- 
valo que en los de razón). Como apoyo a esta propuesta, Peele y cols. (1984) 
demostraron que la ejecución en los programas de IV y RV fue muy similar 
cuando la longitud de los TER reforzados en los dos programas se igualó a 
través de un procedimiento de acoplamiento como el descrito anteriormente 
para las tasas de reforzamiento (Apartado 1.1.1.). 


La ejecución en los programas de RF e IF, sin embargo, no es tan homo- 
génea como en los programas variables y normalmente se obtienen acusadas 
pausas post-reforzamiento. De acuerdo con la aplicación estricta de la teoría 
del reforzamiento diferencial de los TER, los TER reforzados en los progra- 
mas de RF e IF deberían ser siempre muy cortos, puesto que los reforzadores 
se presentan al final cuando los sujetos están respondiendo a una tasa alta. 
Si el mecanismo implícito en determinar la ejecución en los programas de 
condicionamiento operante fuera exclusivamente el reforzamiento diferen- 
cial de los TER, no se tendría por qué esperar que los sujetos dejaran de 
responder inmediatamente después de haber conseguido el reforzador (la 
pausa post-reforzamiento), dado que este intervalo de tiempo no es otra cosa 
que un TER de muy larga duración, aquél que transcurre entre la respues- 
ta reforzada y la primera respuesta después del reforzador. Para solventar 
esta dificultad se han ideado diferentes alternativas que lo que hacen es 
considerar mecanismos adicionales que se combinen con el reforzamiento 
diferencial de los TER y así explicar tanto la constancia en los programas 
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variables como las variaciones en tasas de respuesta observadas en los pro- 
gramas fijos. Por ejemplo, se puede añadir un mecanismo de discriminación 
temporal para explicar que las pausas post-reforzamiento que se obtienen en 
los programas RF/IF obedecen a que los sujetos experimentales son capaces 
de discriminar con bastante eficacia el momento de entrega del reforzador 
(Lejeune, Richelle y Wearden, 2006) con lo que inmediatamente después de 
obtener cada reforzador la posibilidad de conseguir otro es altamente impro- 
bable. Aquí podrían considerarse teorías que basan su nivel explicativo en 
la competición entre respuestas, de manera que en unos momentos u otros 
del intervalo temporal entre reforzadores sucesivos se reforzarían respuestas 
diferentes que explicarían los diferentes patrones de respuesta mostrados 
por los programas de reforzamiento (p. ej., Killeen y Pellón, 2013; Staddon, 
1977). Tanno y Silberberg (2012) han desarrollado recientemente un modelo 
por el que el peso de cada TER cuenta en una función exponencial con res- 
pecto a la distancia a la ocurrencia del reforzador, de manera que los TER 
más alejados pesarán (aportarán) menos que los más cercanos, lo que en su 
conjunto determinará la tasa de respuesta. Evidencia en favor de la mayor 
sensibilidad a los emparejamientos locales respuesta-reforzador frente a las 
relaciones globales entre la respuesta y el reforzamiento se puede encontrar 
en Reed, Hildebrandt, DeJongh y Soh (2003) y en Tanno y Sakagami (2008). 


1.3. Programas compuestos de reforzamiento 


Los programas compuestos resultan de la aplicación de dos o más pro- 
gramas básicos de reforzamiento y pueden dividirse en dos grandes bloques, 
aquellos donde la presentación de los programas componentes es secuencial 
y aquellos donde los componentes se presentan de forma simultánea. En los 
siguientes apartados analizaremos estos dos tipos de programas. 


1.3.1. Programas alternantes y secuenciales: el control por el estímulo 
y el reforzamiento condicionado 


Los programas secuenciales son cuatro: programa mixto, programa 
múltiple, programa tándem y programa encadenado, siendo los dos prime- 
ros alternantes y los dos últimos estrictamente secuenciales. En la Tabla 
5.1. se esquematizan las diferencias entre ellos. 
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Tabla 5.1. Esquema que representa los programas compuestos alternantes 
y secuenciales 


Sin Ed Con Ed 


Alternantes Mixto Múltiple 


Secuenciales Tándem Encadenado 


En un programa mixto se presentan dos o más programas básicos 
alternándose al azar. El cambio de uno a otro de los programas es inde- 
pendiente de la conducta del sujeto en experimentación. Depende, sin 
embargo, de la duración de un tiempo establecido con anterioridad por 
el experimentador. Por ejemplo, si cada componente dura diez minutos, 
durante los diez primeros minutos estará en funcionamiento un programa 
de IF 60-seg, de tal manera que se obtendrá un reforzador (p. ej., una bo- 
lita de comida) cada vez que se dé una respuesta (p. ej., presión de la pa- 
lanca) después de transcurridos 60 segundos desde el anterior reforzador. 
Durante los diez minutos siguientes estará en funcionamiento el segundo 
programa, por ejemplo RF-50, y así durante ese tiempo se reforzará cada 
vez que el sujeto emita cincuenta respuestas consecutivas, para una vez 
finalizados esos diez minutos volver a empezar el programa de IF 60-seg 
y así sucesivamente hasta un número de veces determinado previamente 
por el experimentador. 


El programa múltiple es exactamente igual que el mixto con la diferen- 
cia de que cada componente se señala con una clave discriminativa distinta, 
por ejemplo con una luz, con un sonido, o con cualquier otra estimulación 
ambiental, y el sujeto es informado en todo momento de en qué parte del 
programa múltiple se encuentra. Por ejemplo, el encendido de una luz 
puede indicar la presencia de un programa de IF 60-seg, y cuando la luz se 
encuentre apagada el funcionamiento de un programa de RF-50. Los pro- 
gramas múltiples han sido ampliamente utilizados en la investigación sobre 
discriminación y generalización estimular en el condicionamiento operante 
(ver Honig y Urcuioli, 1981). Cuando, por ejemplo, un estímulo ambiental 
indique que las respuestas pueden ser reforzadas de acuerdo a un programa 
de reforzamiento positivo y cuando un estímulo diferente señale la imposibi- 
lidad de conseguir reforzamiento positivo alguno, nos encontramos ante un 
programa múltiple donde se establece una discriminación entre un estímulo 
discriminativo positivo (E+ o Ed) y un estímulo discriminativo negativo (E- 
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o EA). El aprendizaje de una discriminación como la anterior consistiría en 
emitir respuestas en presencia del Ed y en omitirlas en presencia del EA, por 
lo que dicho programa múltiple permitiría estudiar el grado de control ejer- 
cido por los estímulos discriminativos sobre la respuesta instrumental. La 
evaluación comportamental del control por los estímulos se efectúa en una 
prueba de generalización posterior al entrenamiento de discriminación. El 
control estimular se tratará con detalle en el Capítulo 6. 


Un programa tándem consta al menos de dos programas simples que 
se presentan siempre en el mismo orden. Los sujetos experimentales deben 
completar el primer programa para poder iniciar el segundo, al final del 
cual consiguen la administración del reforzador. A diferencia de los pro- 
gramas mixto/múltiple, en el programa tándem sólo es posible conseguir 
el reforzador si se cumplen en sucesión los programas componentes, el 
cumplimiento del primero de ellos (y por extensión de todos los anteriores 
al último) sólo dará lugar a la posibilidad de realizar el siguiente, pero el 
reforzador sólo se conseguirá al terminar de completar todos. Por ejemplo, 
un programa tándem IF 60-seg RF-50 se inicia con el programa de IF 60- 
seg, de forma que la primera respuesta después de transcurridos 60 segun- 
dos da acceso al programa de RF-50. Cuando se hayan emitido cincuenta 
respuestas se obtendrá el reforzador, lo que de nuevo puede permitir co- 
menzar el programa de IF 60-seg y repetir el programa tándem durante un 
determinado número de veces o durante un periodo fijo de tiempo que ha 
sido determinado con anterioridad por el experimentador. 


El programa encadenado es exactamente igual que el tándem, pero en 
este caso cada uno de los dos programas simples está señalado de manera 
diferente, de forma que el sujeto experimental conoce en qué componente 
del programa se encuentra en cada momento. Habitualmente la termina- 
ción del primer programa se acompaña del encendido de una luz o de la 
presentación de un sonido, que permanece en funcionamiento durante el 
segundo programa hasta el momento de la consecución del reforzador. Por 
ejemplo, en un programa encadenado IF 60-seg RF-50, la primera respuesta 
una vez transcurridos 60 segundos inicia el programa de RF-50, al tiempo 
que provoca el encendido de una luz de la caja experimental, que perma- 
necerá encendida hasta que se complete la respuesta número cincuenta y 
se consiga el reforzador. Los programas encadenados se han utilizado para 
estudiar el reforzamiento condicionado (ver la revisión de Gollub, 1977). 
El reforzamiento condicionado hace referencia al hecho de que algunos 
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estímulos adquieren capacidades reforzantes por su asociación con los re- 
forzadores primarios. Un cambio en el ambiente, como la presentación de 
una luz, puede adquirir capacidades reforzantes de segundo orden por su 
emparejamiento con la comida. En los programas encadenados, el cambio 
en el ambiente producto de la finalización del primer programa adquiere 
propiedades de reforzador por su asociación con el reforzador que se consi- 
gue al finalizar el segundo programa. Las propiedades reforzantes de estos 
estímulos se miden por su capacidad para encadenar respuestas, de manera 
que los sujetos experimentales responden para conseguir dichos cambios 
en el ambiente. Esta técnica del encadenamiento ha permitido estudiar en 
los estímulos capacidades reforzantes de segundo orden, de tercer orden, e 
incluso de órdenes superiores (véase el Capítulo 4 para más detalles). 


1.3.2. Programas simultáneos: programas concurrentes y programas 
combinados 


Entre los programas compuestos simultáneos, los más importantes y 
conocidos son los programas concurrentes, que se caracterizan por dispo- 
ner simultáneamente de al menos dos programas básicos de reforzamiento. 
Contrario a los programas secuenciales anteriormente expuestos, en los 
programas concurrentes se puede cambiar de un programa a otro sin que 
normalmente haya sido necesario haber completado un tiempo o un núme- 
ro de respuestas en cada uno de los programas. Los sujetos experimentales, 
en consecuencia, deben elegir entre responder a uno u otro de los progra- 
mas que componen el programa concurrente. Por ejemplo, en una caja de 
condicionamiento podemos disponer de dos palancas de respuesta, una a 
la derecha y otra a la izquierda. En la palanca de la derecha puede estar en 
funcionamiento un programa de IV 60-seg y en la palanca de la izquierda 
un programa de IV 30-seg. En circunstancias experimentales como ésta, se 
mide el número de respuestas en cada una de las palancas y se calcula la 
proporción por la que se distribuyen las respuestas entre una y otra. 


Otros programas compuestos simultáneos consisten en combinaciones 
de un programa de razón y otro de intervalo, y existen al menos tres combi- 
naciones que deben distinguirse. En un programa alternativo se refuerza 
una respuesta cada vez que se cumple con el requisito del programa de 
razón o el del intervalo, existiendo así dos formas de conseguir el reforza- 
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dor. En un programa conjuntivo se refuerza una respuesta cada vez que 
se cumple al mismo tiempo con el requisito de la razón y del intervalo. Por 
último, en un programa entrelazado la respuesta que se refuerza viene de- 
terminada por dos programas, pero la disposición de uno de ellos se altera 
por el desarrollo del otro. En este último tipo de programa, una posibilidad 
es que cierta suma de respuestas y de tiempo (p. ej., 10 respuestas, ó 6 res- 
puestas en 4 segundos, ó 3 respuestas en 7 segundos, ó 10 segundos) debe 
darse antes de que la respuesta sea reforzada, o bien (como se ha visto con 
anterioridad) que algún valor recogido en un programa de razón determine 
las características de un programa de intervalo. 


Programas de reforzamiento (Resumen) 


Los programas básicos de reforzamiento se construyen en base al requisito 
de haber realizado un número de respuestas o al de emitir la respuesta criterio 
después de pasado un tiempo, de manera que el cumplimiento del criterio espe- 
cificado lleva a la obtención del reforzador. Si se pide un número de respuestas 
por reforzador se trata de un programa de razón, que puede ser un número 
fijo o puede variar para dar un valor promedio. Si se exige que haya pasado 
un tiempo desde el reforzador anterior se trata de un programa de interva- 
lo, pudiendo ser el tiempo siempre el mismo o pudiendo variar en torno a un 
valor medio. Estos requerimientos definen los programas de razón fija (RE), 
razón variable (RV), intervalo fijo (IF) e intervalo variable (IV). Cuando al 
requisito del tiempo desde el reforzador previo se le añade el requerimiento de 
que pase un determinado tiempo entre respuestas, se consigue una tasa baja 
de respuesta correspondiendo con el programa de reforzamiento diferencial 
de tasas bajas de respuesta (RDB). Igualmente se puede reforzar que se 
responda antes de que haya pasado un tiempo determinado, constituyendo el 
programa de reforzamiento diferencial de tasas altas de respuesta (RDA). 


La ejecución en los programas de reforzamiento se puede explicar a nivel 
general por funciones de retroalimentación que relacionan la conducta con el 
reforzador (aproximación molar) o a través de mecanismos específicos como 
el reforzamiento diferencial de los tiempos entre respuestas (aproximación 
molecular). 


Los programas básicos se pueden combinar para dar como resultado los 
programas compuestos. Los más utilizados han sido los programas mixto y 
múltiple para el estudio del control estimular, los programas tándem y enca- 
denado para la investigación sobre reforzamiento condicionado, y los progra- 
mas concurrentes para el estudio de la conducta de elección. 
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2. CONDUCTA DE ELECCIÓN 


Volviendo a los programas concurrentes, la elección o preferencia entre 
las alternativas de respuesta se calcula por la tasa relativa de respuesta y se 
representa por el cociente: 


Ra 
Ra + Rb 


donde Ra y Rb representan, respectivamente, la tasa de respuesta en la al- 
ternativa a y la tasa de respuesta en la alternativa b. 


El procedimiento de los programas concurrentes presenta ventajas 
con respecto a procedimientos utilizados con anterioridad para medir la 
elección en el sentido de que se miden las preferencias de los sujetos por 
dos fuentes alternativas de reforzamiento pero para cuya consecución 
se requieren respuestas operantes semejantes (por ejemplo, presionar la 
palanca a ó presionar la palanca b). Con anterioridad a los programas 
concurrentes, muchos investigadores utilizaron procedimientos que se 
podrían definir como de premios concurrentes (véase posteriormente el 
Apartado 4) donde normalmente se daba a elegir a los sujetos entre dos 
actividades diferentes, como por ejemplo correr y beber, y se medía el 
tiempo que dichos sujetos experimentales empleaban en cada una de estas 
dos actividades conductuales. En base a los resultados que se obtenían, se 
inferían las preferencias relativas de los sujetos. Este procedimiento para 
medir la elección no es el más adecuado en muchas circunstancias pues 
la elección entre premios concurrentes presenta la dificultad de comparar 
entre sí dos actividades conductuales que implican respuestas consuma- 
torias distintas. En los programas concurrentes, los sujetos ya no eligen 
directamente entre diferentes premios, sino que eligen entre distintas al- 
ternativas que requieren una respuesta operante idéntica pero que pueden 
llevar a premios diferentes. Este procedimiento, frente a la elección entre 
premios concurrentes, se puede denominar de elección entre respuestas 
instrumentales concurrentes, y específicamente es el utilizado en los pro- 
gramas concurrentes de reforzamiento (para revisiones, consultar Davison 
y McCarthy, 1988; Williams, 1988). 
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2.1. La ley de igualación 


El primero que utilizó los programas concurrentes de reforzamiento 
con la finalidad de estudiar la elección fue Herrnstein (1961), quien había 
sido estudiante de doctorado de B. F. Skinner. Herrnstein utilizó un pro- 
grama concurrente donde las alternativas diferían en la tasa o frecuencia 
de reforzamiento, con cada alternativa proporcionando reforzamiento de 
acuerdo a un programa independiente de IV. Herrnstein observó que los 
animales (palomas) distribuían sus respuestas en función de la frecuencia 
de reforzamiento en cada una de las alternativas y postuló lo que a partir 
de entonces se ha venido a conocer como ley de igualación. La ley de igua- 
lación afirma que la tasa relativa de respuesta entre dos alternativas de 
respuestas concurrentes es igual a la tasa (frecuencia) relativa de reforza- 
miento asociada con cada una de dichas alternativas de respuesta, y quedó 
expresada matemáticamente por la Ecuación 5.1: 


Ra _ Fa 
Ra+Rb  Fa+Fb 


donde Ra y Rb representan las tasas de respuesta en las alternativas a y b; 
y Fa y Fb representan la tasa (frecuencia) de reforzamiento asociada a las 
alternativas a y b respectivamente. 


En la Figura 5.5 se representan los principales resultados encontrados 
por Herrnstein (1961) referidos a tres palomas (números 055, 231 y 641) 
y que relacionan la tasa relativa de respuesta en el eje de ordenadas con 
la tasa relativa de reforzamiento en el eje de abscisas (aquí referido a por- 
centaje de respuestas y reforzadores en la tecla A). La ley de igualación 
establece una equiparación entre la distribución de las tasas de respuesta 
en las alternativas a y b y la distribución de las tasas de reforzamiento en 
dichas alternativas de respuesta. En los casos extremos, y si el total de 
reforzadores se obtuviese en la alternativa a, también se darían el total de 
respuestas en dicha alternativa (sería el caso del vértice superior derecho de 
la Figura 5.5). Si, por el contrario, el total de reforzadores se obtuviese en la 
alternativa b, sería en la alternativa bh donde se darían todas las respuestas 
(vértice inferior izquierdo de la Figura 5.5). Si los reforzadores se distribu- 
yesen al 50% entre las dos alternativas, la ley de igualación establece que las 
respuestas se distribuirían por igual entre las dos alternativas. Esta relación 
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% de respuestas en la Tecla A 


0 10 20 30 40 50 60 70 80 90 100 
% de reforzadores en la Tecla A 


Figura 5.5. Frecuencia relativa de respuesta a la Tecla A en función de la frecuencia 
relativa de reforzamiento a dicha tecla para tres palomas (con DPC de 1,5 seg — véase 
posteriormente). 


lineal entre la tasa relativa de respuesta y la tasa relativa de reforzamiento 
viene representada por la línea diagonal que divide el área de la figura en 
dos partes iguales. Lo que Herrnstein encontró es que variando la frecuen- 
cia de reforzamiento asociada a las alternativas de respuesta por medio 
de la utilización de distintos programas de IV, los animales se ajustaban 
bastante bien a esa relación lineal, de manera que si en la alternativa a se 
ofrecía una mayor frecuencia de reforzamiento que en la alternativa b, los 
animales elegían más la alternativa a que la b y en proporción semejante a 
la tasa de reforzamiento obtenida en ambas alternativas, y al contrario si la 
alternativa a ofrecía una menor frecuencia de reforzamiento que la alterna- 
tiva b. El comportamiento de elección de las tres palomas de Herrnstein se 
puede ver en la Figura 5.5 y se puede comprobar el cumplimiento bastante 
ajustado a las predicciones de la ley de igualación. 
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Además de igualar la tasa relativa de respuesta con la tasa relativa de 
reforzamiento, como demostró Herrnstein, se ha observado que los anima- 
les igualan la tasa relativa de respuesta con otros parámetros que definen 
al reforzador, como pueden ser la magnitud del reforzador o su inmediatez 
(Catania, 1963; Landon, Davison y Elliffe, 2003). De esta manera se puede 
extender la formulación de la ley de igualación para incluir todos estos 
parámetros de reforzamiento (Logue, Rodríguez, Peña-Correal y Mauro, 
1984), siguiendo la Ecuación 5.2: 


Ra _ Fa w Ma y 1/Da 
Ra+Rb Fa+Fb” Ma+Mb” 1/Da+1/Db 


donde Ra y Rb se corresponden con las tasas de respuesta en las alternati- 
vas a y b; Fa y Fb con las tasas de reforzamiento en las alternativas a y b; 
Ma y Mb con las magnitudes de reforzamiento de las alternativas a y b; y 
Da y Db con las demoras al reforzador en las alternativas a y b. Nótese que 
en el caso de la demora del reforzador los valores se corresponden con la 
inversa del valor de la demora, pues los reforzadores son más preferidos 
cuanto más inmediatos (menos demorados). 


La Ecuación 5.2 establece que todos los factores de reforzamiento in- 
fluyen de forma igual en la elección, y en concreto de forma multiplicativa, 
de manera que cualquiera de esos factores (frecuencia, magnitud, demora) 
puede reducir la elección por una alternativa de respuesta aunque los otros 
factores sean altamente favorables. 


Lo esencial de la ley de igualación es que establece una igualdad entre 
la tasa relativa de respuesta y la tasa relativa de reforzamiento (o cantidad 
relativa de reforzamiento, o demora relativa al reforzador), de manera que 
la proporción entre las respuestas emitidas en las alternativas debe ser igual 
a la proporción de los reforzadores obtenidos en dichas alternativas. En la 
ley de igualación no se equiparan tasas absolutas de respuesta y de refor- 
zamiento, exclusivamente tasas relativas de respuesta y de reforzamiento. 


2.2. Maximización: elección entre programas concurrentes de razón 
El intento de generalizar la ley de igualación a situaciones diferentes 


que la originalmente descrita por Herrnstein, ha llevado a los investiga- 
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dores a variar el tipo de programa de reforzamiento asociado a las alter- 
nativas de respuesta. Como se ha dicho, Herrnstein varió la frecuencia de 
reforzamiento dotando de diferentes valores a los programas de IV. Otros 
investigadores han evaluado la elección cuando las diferentes alternativas 
consistían en programas de razón. Cuando se tiene que elegir entre dos 
alternativas de respuesta que proporcionan reforzadores de acuerdo a 
programas de razón diferentes (un programa concurrente RF-RF o uno 
RV-RV), los sujetos tienden a elegir la alternativa de respuesta que tiene 
una razón más baja, describiéndose dicho resultado como maximización. 
La maximización es un comportamiento adaptativo pues no tiene mucha 
ventaja dedicar esfuerzo a responder en una alternativa menos favorable a 
expensas de perder oportunidad de reforzamiento en la más ventajosa (es- 
to no sucedía en los programas concurrentes de intervalo pues probando 
de vez en cuando en la alternativa menos favorable se podían recoger los 
reforzadores disponibles por haber superado el tiempo estipulado en el pro- 
grama, sin perder realmente reforzadores en la alternativa más ventajosa). 
La maximización, que implica elegir en exclusiva la alternativa más favo- 
rable, no contradice, sin embargo, la ley de igualación. Es más, es el único 
comportamiento que en una situación de programa concurrente de razón 
cumple con la ley de igualación. Por ejemplo, en un programa concurrente 
RV-10 RV-20, si se responde exclusivamente al programa de RV-10 (esto 
es, se maximiza) se obtendrán todos los reforzadores conforme a dicho 
programa. De esta forma, la tasa de respuesta en la alternativa de RV-10 
será igual a la tasa total de respuesta en las dos alternativas (no se dan res- 
puestas en la alternativa RV-20), y la tasa relativa de respuesta será igual a 
1. De igual forma sucede con la tasa de reforzamiento en RV-10, la tasa de 
reforzamiento total y la tasa relativa de reforzamiento serán necesariamen- 
te 1. Como se puede apreciar la tasa relativa de respuesta es igual a la tasa 
relativa de reforzamiento, tal como estipula la ley de igualación. Se puede 
comprobar que cualquier otra distribución de las respuestas en los progra- 
mas concurrentes de razón se alejaría de la formulación de la igualación. 


Se han utilizado también combinaciones de programas de intervalo con 
programas de razón, de manera que por ejemplo uno de los componentes 
fuese un programa de RV y el otro un programa de IV. En circunstancias 
como ésta, lo óptimo sería que los animales se dedicasen a responder casi 
en exclusiva en el programa de razón, probando esporádicamente en el 
de intervalo para recoger los reforzadores que estuviesen allí disponibles 
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por el mero paso del tiempo. Aunque en general se prefiere responder a la 
alternativa del programa de razón, la preferencia no es tan marcada como 
podría pensarse de haber habido una explotación óptima de los recursos, 
perdiendo más reforzadores de los necesarios por una dedicación extra al 
programa de intervalo (ver Herrnstein y Heyman, 1979). Este resultado tie- 
ne importantes implicaciones teóricas, como se verá más adelante. 


2.3. Igualación temporal 


Otra observación adicional es también importante por sus implicaciones 
teóricas. Se ha demostrado experimentalmente que los organismos no sólo 
igualan la tasa relativa de respuesta con la tasa relativa de reforzamiento, 
sino que al mismo tiempo igualan el tiempo de estancia en las alternativas 
de respuesta con la tasa relativa de reforzamiento en dichas alternativas de 
respuesta. Para ello se ha utilizado una variante de programa concurren- 
te, ideada por Findley (1958). Consiste en presentar en una única tecla de 
respuesta los dos programas de IV en sucesión, cada uno señalado por una 
clave discriminativa distinta, como en un programa múltiple. Sin embargo, 
los sujetos pueden cambiar de programa de reforzamiento respondiendo en 
una segunda tecla, denominada de cambio. La gran ventaja del programa 
concurrente de Findley es que separa la respuesta de cambio de la respues- 
ta instrumental. Esta separación permite que se pueda comparar entre 
diversas respuestas instrumentales, e incluso permite que algunas de ellas 
puedan eliminarse. Por ejemplo, Brownstein y Pliskoff (1968) emplearon 
un programa concurrente tipo Findley para estudiar las preferencias de 
las palomas entre varias fuentes de reforzamiento sin emplear respuestas 
instrumentales. Los picotazos en la tecla de cambio modificaban el color 
de la otra tecla, pero los animales no tenían que picotearla para obtener 
los reforzadores. Los reforzadores se administraron independientemente 
de la conducta de los sujetos a tasas diferentes dependiendo del color de 
la tecla. Lo único que podía hacer el animal era picotear la tecla de cam- 
bio para activar uno u otro programa de administración de la comida. Un 
primer picotazo tornaba la tecla de un color y activaba un programa de 
reforzamiento, un segundo picotazo cambiaba el color de la tecla y activa- 
ba el otro programa de reforzamiento, y así sucesivamente. La medida de 
preferencia en este estudio fue el tiempo de permanencia en los programas 
de reforzamiento, asumiéndose que una mayor permanencia reflejaría una 
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mayor preferencia. Al igual que la igualación de respuestas, la igualación 
temporal es un hallazgo muy corriente en los experimentos de elección. Es 
posible encontrar igualación temporal con procedimientos concurrentes 
normales, así como con procedimientos concurrentes tipo Findley donde 
sea necesaria la respuesta instrumental, donde la respuesta instrumental no 
sea necesaria (como en el trabajo de Brownstein y Pliskoff), e incluso donde 
la respuesta instrumental sea necesaria para un programa pero no para el 
otro. La igualación temporal se puede formalizar (Baum y Rachlin, 1969) 
siguiendo la Ecuación 5.3: 


Ta _ Fa 
Ta+Tb  Fa+Fb 


siendo Ta y Tb los tiempos de permanencia en las alternativas a y b; y Fa y 
Fb las tasas de reforzamiento de dichas alternativas de respuesta. 


2.4. Ley generalizada de la igualación 


Al comienzo del Apartado 2 se ha hecho referencia a dos formas de medir 
la elección, los premios concurrentes y las respuestas instrumentales concu- 
rrentes, y también se ha hecho referencia a las limitaciones que presentaba 
el primero de estos métodos. El procedimiento de las respuestas instrumen- 
tales concurrentes supera las dificultades impuestas por el procedimiento 
de los premios concurrentes, pero, sin embargo, hay que considerar algunas 
influencias no deseables que intervienen en la elección de los sujetos entre 
respuestas instrumentales concurrentes. En primer lugar, cuando se tiene 
que elegir entre dos o más alternativas de respuesta se suele producir un 
tipo de comportamiento denominado de alternancia, caracterizado por el 
cambio intermitente de una alternativa de respuesta a otra sin que guarde 
relación con los reforzadores asociados a cada una de dichas alternativas de 
respuesta. En las situaciones de la vida en libertad, los animales tienden a 
cambiar el lugar donde consiguen sus alimentos, y la alternancia es en este 
sentido un comportamiento reminiscente de esta tendencia natural de los 
animales. Además, en algunos programas de reforzamiento, principalmente 
los programas de intervalo, el animal puede ser reforzado por la primera 
respuesta que da después de pasar de una alternativa a otra. Este reforza- 
miento «accidental» puede fortalecer aún más el comportamiento natural 
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de alternancia. Dado que en las situaciones de elección en los laboratorios 
de psicología del aprendizaje interesa que el comportamiento de elección se 
guíe simplemente por las consecuencias de reforzamiento en las diferentes 
alternativas de respuesta (y no por otras variables que podrían ser también 
importantes pero no relevantes al caso), se tiene que controlar la influencia 
extraña que se introduce con este comportamiento alternante de los anima- 
les experimentales. Para ello los investigadores añaden la limitación de que 
no se refuerce la respuesta de cambio de alternativa por un tiempo. Este 
procedimiento se denomina demora por el cambio (DPC), y consiste en 
introducir un periodo temporal breve, de aproximadamente 2 ó 3 segundos, 
después de la primera respuesta a una de las alternativas para que pueda 
entrar en funcionamiento el programa de reforzamiento asociado a dicha 
alternativa de respuesta. En otras palabras, si los sujetos experimentales 
persisten en su comportamiento de alternancia, y se ha introducido la con- 
tingencia de DPC, no podrían obtener ningún reforzador en ninguna de las 
alternativas de respuesta. La consecuencia normal de haber introducido 
la contingencia de DPC es que los sujetos enfrentados con una situación 
de elección abandonan su comportamiento de alternancia y realizan la 
elección en base exclusivamente a las contingencias de reforzamiento aso- 
ciadas con cada una de las alternativas de respuesta. Además de prevenir el 
reforzamiento inmediato de la conducta de alternancia, la DPC garantiza la 
independencia de los operandos de respuesta. 


Existen muchas otras fuentes potenciales de influencias no deseables 
en los experimentos de elección, y genéricamente estas influencias se han 
denominado sesgos. Los sesgos pueden ser de muchos tipos, pero los más 
frecuentes en los experimentos de elección realizados en los laboratorios de 
conducta animal pueden ser, además de la conducta de alternancia descrita 
anteriormente, la disposición espacial de las alternativas de respuesta (iz- 
quierda frente a derecha), el color y la iluminación de dichas alternativas, 
o la fuerza requerida para responder en cada una de las alternativas. En 
un programa concurrente de reforzamiento se requiere que las alternativas 
de reforzamiento difieran exclusivamente en base a las características de 
reforzamiento, y que todos los demás factores permanezcan iguales. Como 
esto no es siempre posible, Baum (1974) ideó un método para corregir la 
influencia de los sesgos, por definición fuentes de influencia desconocida. 
Partió de la idea conceptual de que los sesgos influyen en la elección de 
forma idéntica a los factores de reforzamiento (frecuencia, magnitud, de- 
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mora), y formuló la ley generalizada de la igualación (véase posteriormente 
la Ecuación 5.5 para una formalización más ajustada de la ley). Para el caso 
de la frecuencia de reforzamiento (pero podría hacerse para cualquier otro 
factor de reforzamiento, o para todos juntos), la tasa relativa de respuesta 
se iguala a un factor multiplicativo de la tasa relativa de reforzamiento y de 
los sesgos relativos, y se puede expresar matemáticamente como se sigue 
por la Ecuación 5.4: 


Ra _ Fa e Sa 
Ra+Rb  Fa+Fb” Sa+Sb 


donde Ry y Ry son las tasas de respuesta en las alternativas a y b respecti- 
vamente; F¿ y Fp son las frecuencias (tasas) de reforzamiento en las alter- 
nativas a y b respectivamente; y Sy y Sp son los sesgos en las alternativas a 
y b respectivamente. 


El método de Baum (1974) para corregir los sesgos consiste en tres pasos. 
En primer lugar, se deben equiparar los factores de reforzamiento entre las 
alternativas de respuesta. Por ejemplo, la frecuencia, magnitud y demora del 
reforzador deben ser iguales. En segundo lugar, se deben medir las preferen- 
cias relativas de los sujetos. Si los sujetos distribuyen las respuestas de forma 
igual entre las alternativas de respuesta, entonces no hay influencia de sesgos. 
Si, por el contrario, existe una desviación hacia una preferencia mayor por 
una de las alternativas, dicha elección indicaría la contribución de los sesgos, 
que se puede determinar cuantitativamente por el valor de la tasa relativa de 
respuesta. En tercer lugar, una vez conocido el valor de los sesgos relativos, 
se deben variar los factores de reforzamiento asociados con las alternativas 
de respuesta. Por ejemplo, se puede programar el doble de reforzamiento en 
una de las alternativas y comprobar si los sujetos eligen dicha alternativa el 
doble del valor de los sesgos relativos (hay que recordar que, según Baum, los 
sesgos influyen de forma multiplicativa). Si esto es así, a medida que se vayan 
variando los factores de reforzamiento entre las alternativas de respuesta se 
debería observar una desviación paralela a la igualación en la dirección del 
sesgo. Como la desviación producida por el sesgo es constante a cualquier va- 
lor relativo del reforzamiento, se puede corregir dicho valor en los resultados 
obtenidos. Gráficamente quedaría como en la Figura 5.6, donde se ve que el 
valor de los sesgos relativos se multiplica por cada valor de la tasa relativa de 
reforzamiento corrigiéndose el resultado sobre el eje de las abscisas. 
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Ya se ha visto que hay sesgos de respuesta que pueden incidir en la 
elección y que conviene corregir cuando no evitar (por imposible), aun así 
se parte de la situación ideal de que los animales (y nosotros) somos ca- 
paces de hacer cálculos exactos sobre las cualidades de los reforzadores y 
elegir proporcionalmente en consecuencia. Es considerar que el cálculo es 
puramente matemático, como si el cerebro, o las relaciones conducta-con- 
secuencia, reflejasen una suerte de computación exacta. No es de extrañar 
que ajustes tan exactos como los predichos por la ley de igualación de Herr- 
nstein en realidad no se cumplan (McDowell, 2005) y que las estimaciones 
en cuanto a las ventajas de reforzamiento de las alternativas de respuesta 
conduzcan a errores de estimación que es lo genuinamente psicológico. Ya 
se ha visto con anterioridad (Capítulo 4) que la estimación del valor de un 
reforzador depende mucho de la experiencia previa o simultánea con otros 
reforzadores, de manera que el valor no es algo que provenga exclusiva- 
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Figura 5.6. Ejemplo de corrección de sesgo en la igualación. Los círculos negros señalan 
los datos antes de corregir los sesgos. Los círculos blancos señalan lo que sucede cuando 
cada valor de la abscisa se multiplica por el sesgo. Nótese la escala logarítmica de los ejes. 
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mente de unos rasgos estrictamente objetivos sino que pueden ser relacio- 
nales, en comparación con otras alternativas o con experiencias previas. En 
el caso de los programas concurrentes sucede exactamente lo mismo. Es 
posible que la valoración de una de las alternativas de respuesta dependa no 
sólo de su valor objetivo, sino del valor que se ofrece en la otra alternativa. 
Y esto es así, habiéndose demostrado repetidamente. A veces la alternativa 
de respuesta es sobrevalorada (si la otra alternativa es significativamente 
peor) y a veces es infravalorada (si la otra alternativa es manifiestamente 
mejor). Y este cálculo del valor de los reforzadores es la generalidad, lejos 
de la excepción. Existe sobreigualación cuando la mejor alternativa es va- 
lorada por encima de la preferencia establecida por la igualación perfecta; 
existe infraigualación cuando la mejor alternativa es valorada por debajo 
de la preferencia establecida por la igualación perfecta. Es más común 
encontrar infraigualación que sobreigualación (Baum, 1974), debido prin- 
cipalmente a la tendencia a cambiar de alternativa cuando se ha obtenido 
reforzamiento en una de ellas (el comportamiento de alternancia descrito 
anteriormente), lo que disminuye el ajuste perfecto a la igualación. 


Cuando se habla de sobreigualación y de infraigualación, siempre se 
hace referencia a la tasa de respuesta en la alternativa más favorable (con 
mayor frecuencia de reforzamiento) en el contexto de las predicciones de 
la ley de igualación. Ello implica que las dos alternativas de respuesta no 
son iguales, siempre tiene que haber una más favorable. En estas circuns- 
tancias, la ley de igualación hace unas predicciones cuantitativas sobre las 
preferencias relativas de los sujetos basadas en la frecuencia relativa de 
reforzamiento. Por ejemplo, dado un programa concurrente IV 30-seg IV 
60-seg, los organismos siguiendo la igualación responderán el doble al pro- 
grama IV 30-seg (porque ofrece el doble de frecuencia de reforzamiento). 
Si la relación de igualación se desviara hacia valores superiores al doble, 
tendríamos un ejemplo de sobreigualación. Si, por el contrario, la relación 
de igualación fuera menor del doble, sería un caso de infraigualación (asu- 
miendo que el numerador en la ley de la igualación fuera el programa más 
favorable). Si entre dos alternativas igualmente favorables, los animales 
eligen más una que la otra, entonces esa aparente desviación de la ley de 
igualación puede ser debida a sesgos de respuesta (véase más arriba), pero 
no podría concluirse que fuera un caso de sobreigualación o de infraigua- 
lación. Por otra parte, los sesgos también pueden intervenir en facilitar la 
sobreigualación y la infraigualación. 
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En la Figura 5.7 se dibujan curvas hipotéticas de sobreigualación (curva 
de puntos) e infraigualación (curva de guiones), junto con la relación lineal 
de la igualación perfecta. Dado que los ejes son proporciones de respuesta 
y de reforzamiento entre las alternativas a y b, se debe entender que el valor 
de 1 se corresponde con la situación en que ambas alternativas de respuesta 
ofrezcan el mismo reforzamiento. En este caso, y si no hubiera sesgos, las 
respuestas se deberían distribuir por igual entre las dos alternativas. Cuan- 
do la proporción de reforzamiento (Fa/Fb) sea mayor que 1, la alternativa 
a ofrecerá un mejor reforzamiento que la alternativa hb. En este caso, si 
existiese sobreigualación se debería elegir la alternativa a proporcional- 
mente más de lo que se predice por la igualación perfecta. La proporción 
de respuestas (Ra/Rb) debería estar por encima de la igualación (curva de 
puntos en la parte derecha de la figura). Por el contrario, si existiese infrai- 
gualación se debería elegir la alternativa a proporcionalmente menos de lo 
que se predice por la igualación perfecta. Aquí la desviación de la iguala- 
ción debería estar por debajo de la igualación (curva de guiones en la parte 
derecha de la figura). 


10 


1 
Fa/Fb 


Figura 5.7. La diagonal representa la igualación, la curva a puntos la sobreigualación y la 
curva a guiones la infraigualación. Nótese la escala logarítmica de los ejes. 
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Lo más complejo es quizás entender la parte izquierda de la Figura 5.7, 
el caso en el que los valores de las tasas relativas de respuesta y de refor- 
zamiento sean menores que 1. Lo más importante es darse cuenta que si 
la proporción de reforzamiento (Fa/Fb) es menor que 1, el programa hb es 
mejor que el a (el denominador tiene que ser mayor que el numerador). La 
igualación predice que aquí b se debe elegir proporcionalmente más que a. 
Si existiese sobreigualación, dicha preferencia por b debería exagerarse en 
relación a lo predicho por la igualación perfecta. Al aumentar la propor- 
ción de respuestas en b sobre las de a, la tasa relativa de respuesta (Ra/Rb) 
debería disminuir. Eso es justamente lo que se representa por la curva de 
puntos en la parte izquierda de la figura. En el caso de infraigualación, por 
el contrario, el programa más favorable b se debería elegir en una propor- 
ción menor que la predicha por la igualación perfecta. La curva en este caso 
sería como la de los guiones en la parte izquierda de la figura, desviada por 
encima de la igualación. 


Si volvemos la vista por un momento a los resultados originales de 
Herrnstein (1961) representados en la Figura 5.5, ninguna de la palomas 
realmente se ajustó a la igualación perfecta, notándose que la paloma 231 
(y quizás la 645) mostró sobreigualación y la paloma 055 infraigualación. 


Baum (1974, 1979) amplió la ley de igualación de Herrnstein para incor- 
porar las desviaciones por sobreigualación o infraigualación, además de la 
influencia multiplicativa de los sesgos en la elección (como en la Ecuación 
5.4), resultando en la Ecuación 5.5: 


siendo k la constante que representa los sesgos relativos (una constante cal- 
culada por el método explicado más arriba) y s un exponente que representa 
la sensibilidad hacia los programas de reforzamiento. Cuando k y s sean igual 
a 1, la ecuación se reduce a la de Herrnstein (con el cambio de que en los 
denominadores no se consideran el total de respuestas y de reforzamiento, 
sólo la tasa de respuesta y de reforzamiento de la alternativa b). Los valores 
de s inferiores a 1se corresponderían con la infraigulación, los valores de s 
superiores a 1 con la sobreigualación. La sobreigualación sería más frecuen- 
te cuando se utilice una contingencia de DPC relativamente larga o cuando 
resulte muy costoso el cambio de una a otra alternativa de respuesta (p. ej., 
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Aparicio, 2001); en otras circunstancias resulta más frecuente obtener infrai- 
gualación. En el caso extremo en que s sea igual a O, las tasas de respuesta 
en las alternativas a y b serán siempre las mismas independientemente de 
las tasas de reforzamiento que acompañen dichas alternativas de respuesta, 
reflejando una completa insensibilidad a las contingencias de reforzamien- 
to. Esto podría ocurrir cuando los sujetos obtuviesen todos los reforzadores 
respondiendo simplemente a las dos alternativas de respuesta en estricta 
alternancia, o de acuerdo a cualquier otro patrón de comportamiento que 
fuese independiente de los valores de los programas de reforzamiento. En 
relación con el cómputo de las tasas relativas de respuesta y de reforzamiento 
en base al total o sólo en relación a la otra alternativa de respuesta, la lógica 
de la igualación no cambia pero se ha visto que mantener la proporción de 
conducta y de reforzamiento sólo de una alternativa sobre la otra (como en 
la ley generalizada de la igualación) se ajusta mejor a los resultados experi- 
mentales. Las Figuras 5.6 y 5.7 ya reflejaban este cambio. 


2.5 Teorías de la igualación 


Las ecuaciones de igualación vistas hasta ahora se refieren a relaciones 
entre variables de comportamiento, a cómo diferentes aspectos de la con- 
ducta se relacionan entre sí, estableciendo relaciones muy precisas entre 
aspectos del registro de la conducta como la tasa de respuesta y aspectos 
de los reforzadores que dependen de la propia ejecución operante, como 
puede ser la tasa de reforzamiento. Ambas mediciones son reflejo de la 
ejecución operante, donde se requiere la emisión de una respuesta parti- 
cular para la obtención del reforzador, pero los reforzadores no se pueden 
obtener sin una respuesta previa. Por tanto, las diferentes versiones de la 
ley de igualación lo que establecen son relaciones (correlaciones, si se quie- 
re) entre al menos dos medidas de la conducta, que como tal son variables 
dependientes de la ejecución operante. La forma en que dos aspectos de la 
conducta se relacionan constituye una explicación meramente descriptiva, 
no presupone ninguna explicación mecanicista. La forma en que los anima- 
les llegan a la igualación puede ser variada y explicada, por tanto, a través 
de diferentes mecanismos. 


Al igual que con los programas básicos de reforzamiento, en la igualación 
hay dos enfoques principales, la aproximación molecular y la aproximación 
de corte más molar, que tienen que explicar cómo se distribuyen las respues- 
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tas entre las alternativas disponibles así como el momento en que se produce 
el cambio de una a otra alternativa. La aproximación teórica molecular afir- 
ma que el cambio de una alternativa de respuesta a otra se realiza en el mo- 
mento en que la probabilidad momentánea de reforzamiento sea mayor en la 
otra alternativa (Shimp, 1966). Basa su análisis en el cálculo de las probabili- 
dades relativas de reforzamiento en cada momento, de aquí que se denomine 
molecular. Por ejemplo, si los sujetos tienen que elegir entre dos programas 
de intervalo variable, IV 60-seg e IV 45-seg, en un primer momento elegirán 
el programa de IV 45-seg porque es el que ofrece una mayor probabilidad de 
ser reforzado, pero cuando se obtenga aquí el reforzamiento cambiarán al 
programa de IV 60-seg porque la probabilidad de conseguir el reforzador se- 
rá entonces mayor en ese programa (tendrían que esperar por término medio 
15 seg, mientras que en el programa de IV 45-seg tendrían que esperar por 
término medio 45 seg al haberse iniciado de nuevo el intervalo). Distribuyen- 
do las respuestas de esta manera, y si al final se sumasen todas, se vería que 
se respondería más al programa de IV 45-seg que al de IV 60-seg y en una 
proporción semejante a la establecida por la ley de igualación. 


La aproximación molar, de forma contraria a la teoría molecular, afir- 
ma que los animales distribuyen sus respuestas de acuerdo a un cálculo 
global de las tasas relativas de reforzamiento entre las dos alternativas de 
respuesta, eligiendo más aquella alternativa que proporciona una mayor 
tasa de reforzamiento (Rachlin, Battalio, Kagel y Green, 1981). A través de 
un cálculo general, los animales ajustan proporcionalmente sus respuestas 
entre los reforzadores disponibles en las diferentes alternativas, cumplien- 
do la ley de igualación. 


Aunque las predicciones de la teoría molecular, y el mecanismo pro- 
puesto, parecen demasiado precisas, justo en su precisión está la virtud, en 
el sentido de ser comprobable, y lo que se ha visto es que en general este 
mecanismo explica bastante bien la distribución de respuestas en progra- 
mas concurrentes de intervalo, donde los animales podrían responder de 
muchas maneras pero lo hacen de forma muy aproximada a como predice 
la teoría. Además, la aproximación molar tiene problemas para explicar 
resultados como los comentados sobre la no preferencia casi exclusiva por 
el programa de razón cuando se presenta un programa concurrente RV-IV 
(Apartado 2.2). También tendría más dificultad que la aproximación mole- 
cular para explicar por qué los animales en general prefieren reforzadores 
variables a fijos cuando en ambos se ofrezca un promedio igual de tasa de 
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reforzamiento (p. ej. McSweeney, Kowal y Murphy, 2003). Para la apro- 
ximación molecular, en la administración de reforzadores variables se au- 
menta la probabilidad de que haya una mayor contigúidad entre la respues- 
ta y la consecución del reforzador. A favor de esta idea estaría el resultado 
de que habiendo una mayor preferencia por los reforzadores variados, sin 
embargo no existe tal preferencia por responder de forma variada frente a 
repetitiva si se mantienen los reforzadores fijos (Abreu-Rodrigues, Lattal, 
Dos Santos y Matos, 2005). 


Una tercera teoría, denominada del mejoramiento, puede considerarse 
una síntesis de las aproximaciones molecular y molar. Según esta idea, los 
organismos eligen entre dos fuentes de premio de manera que se igualen 
las tasas locales de reforzamiento, respondiendo a la alternativa que en 
un momento dado presenta una mejor tasa local de reforzamiento (Herr- 
nstein y Vaughan, 1990). La mejora se establece en términos de tasa local 
de reforzamiento, más que en términos de probabilidad momentánea de 
reforzamiento (como hacía la aproximación molecular). Así, los resultados 
tienen un alcance a más largo plazo que la teoría molecular, pero no se 
refiere a tasas globales de reforzamiento, como ocurre con la teoría molar. 
Intrínseco a la teoría del mejoramiento es la igualación temporal, puesto 
que los sujetos al elegir más la alternativa que proporcione un mejor re- 
forzamiento, darán una mayor tasa de respuesta, obtendrán una mayor 
tasa de reforzamiento y permanecerán más tiempo en dicha alternativa de 
respuesta. Como resultado de todo ello las tasas locales de respuesta y de 
reforzamiento (el número de respuestas o de reforzadores por tiempo de 
estancia en la alternativa) serán iguales o muy parecidas entre las diferentes 
alternativas de respuesta, por cuanto se responderá menos a la alternativa 
menos favorable, se obtendrán menos reforzadores en ella, pero también 
se le dedicará menos tiempo. Las tasas locales de respuesta y de reforza- 
miento, por tanto, serán iguales en las diferentes alternativas de respuesta, 
siendo esa la consecuencia de elegir en cada momento la alternativa que 
proporcione la mejor tasa local de reforzamiento. La teoría de la mejora se 
deriva perfectamente de la igualación: teniendo en cuenta el tiempo em- 
pleado en responder a cada alternativa (como veíamos anteriormente en 
relación con la igualación temporal — Ecuación 5.3.), se puede derivar con 
cierta lógica (y matemáticamente) que los animales al igualar están real- 
mente equiparando las tasas locales de respuesta y de reforzamiento entre 
las alternativas de respuesta (Baum y Rachlin, 1969). 
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2.6. Impulsividad y autocontrol: la elección con compromiso 


En cuanto a la medida de la elección, existe un último procedimiento 
experimental que introduce ventajas sobre el procedimiento de las res- 
puestas instrumentales concurrentes, que es el hasta ahora referido para 
el estudio de la elección. Este procedimiento se denomina cadenas concu- 
rrentes de respuesta, y con él no se mide la elección entre premios de for- 
ma directa, ni tampoco se mide directamente la elección entre respuestas 
instrumentales concurrentes, sino que se mide la elección entre diferentes 
fuentes de premio. 


En la Figura 5.8. se representa un esquema de un programa concurrente 
simple (como los tratados hasta ahora en este capítulo) y otro de un progra- 
ma concurrente encadenado. En el programa concurrente simple (arriba) se 
da a elegir a los animales entre dos alternativas de respuesta (en este caso, 
rojo frente a verde), cada una acompañada de un programa de reforzamien- 
to (comida) particular. El programa concurrente encadenado (abajo), con- 
trario al simple, se compone como mínimo de dos pasos, un eslabón inicial 
donde el sujeto tiene que elegir entre dos alternativas de respuesta idénticas 
(blanco frente a blanco), y un eslabón terminal donde se proporcionan los 
reforzadores por responder en la alternativa de respuesta elegida durante el 
eslabón inicial. Si se hubiese elegido la alternativa de la izquierda, la tecla 
central se iluminaría de rojo y se acompañaría de un programa de reforza- 
miento particular; si se hubiese elegido la alternativa de la derecha, la tecla 
central se iluminaría de verde y se acompañaría de otro programa de refor- 
zamiento. Una vez transcurrido un tiempo predeterminado en el eslabón 
terminal, se vuelve a presentar el eslabón inicial hasta que el sujeto elija otra 
vez una de las alternativas de respuesta y se vuelva a pasar al eslabón termi- 
nal. Este procedimiento para medir la elección permite, entre otras cosas, 
que los sujetos sean más consecuentes al decidir sus respuestas de elección 
en comparación con los otros procedimientos experimentales de elección 
discutidos anteriormente. Este procedimiento también permite separar el 
aprendizaje de responder para conseguir el reforzador en los eslabones 
terminales, del aprendizaje de elección en el eslabón inicial. Es, por tanto, 
un procedimiento más limpio para medir la elección, descontaminada de 
los propios efectos del reforzamiento sobre la tasa de respuesta (que se po- 
drían confundir con respuestas de elección). Al ser sometidos a programas 
concurrentes encadenados, los sujetos experimentales normalmente igualan 
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la tasa relativa de respuesta en los eslabones terminales con la tasa relativa 
de reforzamiento en dichos eslabones terminales (el resultado normal de la 
igualación), pero también igualan la tasa relativa de respuesta en el eslabón 
inicial con la tasa relativa de reforzamiento en los eslabones terminales. Los 
programas concurrentes encadenados se asemejan más a las elecciones en la 
vida cotidiana, donde optar por una alternativa te compromete por un tiem- 
po hasta poder cambiar de opción y donde normalmente no se puede estar 
cambiando caprichosamente de alternativa en cada momento. Por ejemplo, 
al inicio de un curso académico un estudiante decide matricularse de un 
cierto número de asignaturas, para darse cuenta inmediatamente de que 
la elección de alguna de ellas mejor la hubiese dejado para otro momento 


PROGRAMA CONCURRENTE SIMPLE 


Eslabón inicial 


Eslabón terminal 


Comida Reforzamiento 


Figura 5.8. Diagrama esquemático de procedimientos típicos de programa concurrente 
simple y programa concurrente encadenado. Consultar el texto para explicación. 
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(Psicología del Aprendizaje, por ejemplo), pero el cambio de matrícula de 
asignatura no puede realizarse siempre, sólo cuando se habilite su dispo- 
nibilidad, mientras tanto se ha adquirido un compromiso de permanencia. 
Igual se puede aplicar para elecciones de ir a ver una película u otra en una 
sala multicines, o elegir un plato de un menú en lugar de otro. 


Rachlin y Green (1972) realizaron un trabajo seminal que ilustra perfec- 
tamente las implicaciones diferenciales de utilizar un programa concurren- 
te simple o uno encadenado cuando dieron a elegir a sus animales entre 
una opción que implicaba una recompensa pequeña inmediata y otra que 
implicaba una recompensa mayor demorada. Cuando la elección era direc- 
ta, como en el caso del programa concurrente simple, se prefería la opción 
que llevaba al premio pequeño inmediato aún cuando dicha opción no fue- 
se la más ventajosa en términos de obtención del máximo reforzamiento. 
La situación estaba diseñada para que por esperar al premio mayor en la 
otra opción de respuesta se conseguía a la larga un mejor reforzamiento. 
Era como si la inmediatez del reforzador influyese más en la elección que 
la magnitud. Cuando utilizaron un programa concurrente encadenado e 
introdujeron un tiempo constante de espera para poder acceder a la opor- 
tunidad de que las respuestas fuesen reforzadas (por la introducción del 
eslabón inicial de elección), las preferencias cambiaron y ahora los ani- 
males optaron más por la alternativa que llevaba al reforzador mayor pero 
más demorado. Al introducir una pequeña demora entre la elección y la 
respuesta reforzada, la fuerza de la inmediatez del reforzador se debilitó y 
la elección se guió más por la magnitud del reforzador. La preferencia por 
una recompensa pequeña inmediata se denomina impulsividad; la prefe- 
rencia por una recompensa mayor demorada se denomina autocontrol. El 
trabajo de Rachlin y Green muestra que demorar un poco la entrega del 
reforzador pequeño hace que su fuerza se debilite y se prefiera esperar (ya 
que hay que esperar) a uno de mayor magnitud. 


Estudios como estos de autocontrol muestran que en realidad los pesos 
relativos de los diferentes factores que definen a los reforzadores no influ- 
yen de la misma manera en la elección, y que por tanto la Ecuación 5.2 no 
es del todo correcta. La idea expresada en la ecuación sigue siendo válida 
(como se ha visto a lo largo de todo este apartado) pero no que cada uno 
de los factores tenga que influir de la misma forma en la distribución de las 
respuestas entre las alternativas de elección, no al menos en el caso de la 
magnitud y de la demora al reforzador. 
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Una forma de explicar los resultados de los estudios de autocontrol a 
través de la ley de igualación es aceptar una extensión de la ley generalizada 
de la igualación (Ecuación 5.5) que incorpore los parámetros de frecuencia 
(inmediatez) y magnitud del reforzador como se detalla en la Ecuación 5.6 
(Elliffe, Davison y Landon, 2008): 


Ra (E j pe y 
——_=kxI—=| x|— 
Rb Fb Mb 


donde los exponentes de la sensibilidad (s) a las características de los refor- 
zadores se hacen diferentes para la frecuencia (sf) y para la magnitud (sm). 


Cording, McLean y Grace (2011) encontraron que haciendo que las es- 
timaciones de sm fuesen menores (un valor numérico más pequeño) que 
las de sf se podían explicar muchos de los estudios que han mostrado que 
la proporción de la magnitud del reforzador en realidad controla menos la 
distribución de conducta que la proporción de frecuencia de reforzamiento. 


2.7. La noción de valor de los reforzadores 


Una aproximación complementaria a la de la ley de igualación es inte- 
erar los distintos factores de reforzamiento bajo el concepto de valor de 
la alternativa, y esto se ha investigado de forma bastante sistemática con 
los parámetros de la magnitud y la demora del reforzador (como en los 
estudios de autocontrol comentados en el apartado anterior, pero también 
con programas no concurrentes). El valor de una alternativa de respuesta 
aumentará con la magnitud del reforzador y disminuirá con la demora para 
la entrega del reforzador. Matemáticamente el valor del reforzador vendrá 
determinado, en este caso, por el cociente magnitud/demora. 


Este análisis simple nos permite predecir algunos fenómenos interesan- 
tes, algunos de ellos relativamente complejos en apariencia. Imaginemos 
una situación donde se ofrece un programa concurrente de IV 30-seg IV 
20-seg, pero el reforzador es el doble en el primer componente. En esta 
situación, los sujetos elegirán la alternativa de mayor premio más demo- 
rado, esto es, mostrarán un comportamiento «autocontrolado». Esto es así 
porque el valor de la alternativa IV 30-seg es 2/30 = 0,07 (dos reforzadores 
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cada 30 seg por término medio), mientras que el valor de la alternativa IV 
20-seg es 1/20 = 0,05 (un reforzador cada 20 seg por término medio). 


Tomemos otro ejemplo, un programa concurrente IV 40-seg IV 15-seg, 
con el doble de cantidad de reforzador en el primer componente. En este 
caso, los animales elegirán más la opción de IV 15-seg (1/15 = 0,07) que 
la opción de IV 40-seg (2/40 = 0,05). Esto representaría un caso de «im- 
pulsividad». 


Aunque los casos anteriores se han puesto como ejemplos de autocon- 
trol e impulsividad, la verdad es que no son del todo correctos. En cual- 
quiera de las dos situaciones, siempre había una alternativa que ofrecía 
una mejor frecuencia de reforzamiento, lo que es plenamente acorde con 
la ley de igualación. Para entender mejor cómo funciona el autocontrol es 
necesario partir de una situación donde los animales elijan la alternativa 
que les ofrezca un premio menor más inmediato (como en el trabajo de 
Rachlin y Green comentado en el apartado anterior). Por ejemplo, en un 
programa concurrente IV 5-seg IV 10-seg que suministre 1,5 veces más 
cantidad de reforzador en el segundo componente, los sujetos elegirán 
con más probabilidad el programa IV 5-seg (1/5 = 0,2) que el programa IV 
10-seg (1,5/10 = 0,15). Si se añadiera un retraso constante a la entrega de 
las dos recompensas, como en los programas concurrentes encadenados, 
se podrían invertir las preferencias. Por ejemplo, añadiendo un intervalo 
temporal de 20 seg a las dos alternativas, el valor de la alternativa TV 5-seg 
sería 1/25 = 0,04, y el valor de la alternativa IV 10-seg sería 1,5/30 = 0,05. 
Añadir un retraso constante a la entrega de los dos reforzadores vuelve un 
comportamiento «impulsivo» en «autocontrolado», y esto es precisamente 
lo que demostraron Rachlin y Green (1972). 


Mazur (1984) ha propuesto que el cambio de un comportamiento im- 
pulsivo a uno autocontrolado se puede explicar mediante una función hi- 
perbólica que podría expresarse como sigue (Ecuación 5.7): 


Ma 

Va = — 
1+%Da 

donde V,, sería el valor de un reforzador a que tuviese una magnitud M¿ y 

una demora D¿; k sería una constante que representa la tasa de descuento 

de la demora para cada individuo particular en una situación dada (una 
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tasa que indica hasta qué punto son apreciados los reforzadores demora- 
dos). El valor del reforzador sería mayor a medida que su magnitud fuese 
mayor y la demora para su obtención menor, pero la relación no sería 
lineal sino hiperbólica (Mazur, 2001). Por ejemplo, para una magnitud 
dada, el valor del reforzador aumentaría en una proporción creciente a 
medida que sea menor la demora. En el caso de reforzamiento inmediato, 
el valor del reforzador vendría exclusivamente determinado por su magni- 
tud. Aplicando esta ecuación se puede comprobar que cuando un reforza- 
dor grande y otro pequeño son demorados, aunque el primero lo sea más 
que el segundo, el valor del reforzador grande será superior al del pequeño 
(autocontrol). El valor del reforzador pequeño será mayor que el del gran- 
de, por el contrario, cuando la espera para el primero sea relativamente 
pequeña (impulsividad). 


El valor aversivo de un castigo también cambia mediante una función 
hiperbólica semejante a la de la recompensa y expresada en la Ecuación 5.7 
(véase Dinsmoor, 1998). Como en el caso del reforzamiento, en la determi- 
nación del valor aversivo relativo de dos castigos de intensidad y demoras 
diferentes, tiende a incidir más la diferencia entre sus intensidades que en- 
tre sus demoras si se trata de castigos muy diferidos (aquí se «preferiría» el 
castigo pequeño), pero tiende a incidir más la diferencia entre sus demoras 
que entre sus intensidades cuando el menos intenso es relativamente inme- 
diato (aquí se «preferiría» el castigo grande). En el Capítulo 7 se tratarán 
estos y otros aspectos relacionados con el castigo. 


2.8. La tasa de respuesta en relación a la ley de igualación 


Herrnstein (1970) amplió la ley de igualación al considerar que cual- 
quier situación implica necesariamente una elección, incluso cuando sólo 
se ofrezca una alternativa de respuesta, como en los programas básicos de 
reforzamiento. En este caso, los animales deben elegir entre responder y no 
hacerlo. Mejor dicho, los animales están confrontados entre responder de 
la manera específica que requiere el experimentador (por ejemplo, presio- 
nar una palanca o picar una tecla) y realizar otras actividades (asearse, dar 
vueltas, picotear el suelo, oler agujeros de la cámara experimental). Los su- 
jetos recibirían reforzadores explícitos, programados por la ocurrencia de la 
respuesta operante explícita, pero también recompensas implícitas por las 
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otras actividades que pueden realizar. Por tanto, tiene que considerarse que 
el reforzamiento total de la situación comprende los reforzadores progra- 
mados y los reforzadores no explícitamente programados. Matemáticamen- 
te se puede describir esta conducta de elección como en la Ecuación 5.8: 


Ra _ Fa 
Ra+Ro  Fa+Fo 


donde R¿ representa la tasa de respuesta operante específica del programa, 
Ro la tasa de las otras actividades del animal, F¿ la frecuencia de reforza- 
miento explícito programado, y F¿ la frecuencia de reforzamiento intrínse- 
co de las otras actividades. 


Es más, Herrnstein (1970) teorizó que la tasa total de conducta (Ra + 
Ro) debería ser una constante pues, en general, se debe aceptar la idea de 
que los organismos siempre están haciendo algo, que siempre están desa- 
rrollando alguna actividad (aunque sea descansar). Por tanto, la suma de 
la tasa de respuesta criterio más la de cualquier otra actividad debe ser 
siempre igual. Si la tasa de respuesta criterio bajase, necesariamente quiere 
decir que los animales estarían dedicándose a otras actividades; si subiese, 
las otras actividades disminuirían. Es decir, la adquisición de una respuesta 
particular implica una redistribución de respuestas entre las alternativas 
disponibles. Si se representa la constante del total de la tasa de respuesta 
por el parámetro k (Ra + Ro = k), despejando Ra en la Ecuación 5.8 queda- 
ría como sigue (Ecuación 5.9): 


Ra= kx |) 
Fa+ Fo 


lo que significa que la tasa absoluta de una conducta (Ra) está en función 
de la tasa relativa de reforzamiento de esa conducta en relación con otras. 
Una forma de aumentar la tasa de la respuesta sería aumentar la tasa de 
reforzamiento asociada a esa conducta (haciendo que Fa fuese mayor), y 
otra sería disminuir la tasa de reforzamiento alternativo (haciendo que Fo 
disminuyese). Esta ecuación es a menudo referida como la cuantificación 
de la ley del efecto de Thorndike (de Villiers, 1977) en la medida en que 
especifica cuantitativamente cómo las consecuencias afectan a la conducta, 
y transforma una ley de igualación puramente descriptiva en una teoría. 
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Conducta de elección (Resumen) 


La elección en programas concurrentes de reforzamiento ha sido por lo ge- 
neral bien descrita a través de la ley de igualación, que en virtud del desarrollo 
de la investigación es generalmente aceptada en su formulación denominada 
ley generalizada de la igualación. Según esta formulación, la distribución de 
la conducta entre dos alternativas de respuesta se iguala a la distribución del 
reforzamiento obtenido en dichas alternativas, con la consideración de que en 
la elección pueden intervenir sesgos de respuesta (tendencias de respuesta no 
debidas a reforzamiento) y una sensibilidad diferencial a los parámetros de 
reforzamiento de las alternativas de respuesta. 


La ley generalizada de la igualación se cumple con diferentes mediciones 
de la conducta (tasa de respuesta, tiempo de permanencia en las alternativas 
de respuesta) y con diferentes características de los reforzadores (programas 
concurrentes de intervalo o de razón, diferentes frecuencias de reforzamiento, 
o diferentes magnitudes y demoras al reforzador), habiendo sido necesario 
modificar un poco la formulación original de la ley para poder incorporar los 
resultados experimentales más relevantes. 


La ley de igualación es una descripción de la relación que se establece entre 
aspectos de la conducta y de los reforzadores, estableciendo como mucho una 
correlación entre aspectos de ejecución de la conducta operante. Para explicar 
cómo se obtiene la igualación se han propuesto teorías molares y molecula- 
res, así como un mecanismo de mejoramiento que podría considerarse sínte- 
sis de ambas aproximaciones. 


Con base en la ley de igualación se ha desarrollado una teoría que explica 
que la tasa de respuesta está determinada por el reforzamiento que acompaña 
la realización de una conducta en particular así como por los reforzadores al- 
ternativos que se pudiesen obtener por realizar otras conductas, partiendo de la 
idea de que los organismos siempre están haciendo algo (están comportándose 
de manera continua). 


3. LA NATURALEZA DE LA ASOCIACIÓN EN EL APRENDIZAJE 
INSTRUMENTAL 


Siguiendo a Skinner (1938) y a Hull (1943), la formulación de la ley de 
igualación y de la teoría de la igualación por Herrnstein se basaron en el 
constructo de fuerza de la respuesta. Este constructo es probablemente 
mejor entendido como variable interviniente y no realmente como un cons- 
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tructo hipotético (MacCorquodale y Meehl, 1948), en el sentido de que res- 
ponde a un conjunto de cantidades empíricamente medibles de conducta 
(preferentemente la tasa de respuesta, pero no sólo) (véase Conocimientos 
previos para aclaración de la distinción entre variable interviniente y cons- 
tructo hipotético). 


¿Cómo se desarrolla la fuerza de la respuesta? La respuesta tradicional 
a esta pregunta ha sido (y quizás continúa siendo la más extendida) de 
naturaleza asociativa, y en concreto a partir de la formación de asociacio- 
nes entre los estímulos y las respuestas. Éste fue el planteamiento de E. L. 
Thorndike en la formulación de la ley del efecto, y por eso se considera que 
la ley del efecto propuesta por Thorndike es de naturaleza teórica. Sin em- 
bargo, es C. L. Hull quién mejor representa la teoría de que el aprendizaje 
es fruto de la formación de asociaciones estímulo-respuesta (E-R). Según 
este punto de vista, los estímulos ambientales elicitan respuestas, y su aso- 
ciación se ve estampada por la ocurrencia del reforzador. En el futuro, ante 
la presentación de tales estímulos será más probable la ocurrencia de las 
respuestas que han sido reforzadas. 


E. L. Thorndike (1874-1949) comenzó a trabajar experimentalmente 
con animales dentro del ambiente darwinista de finales del siglo XIX (véase 
el Capítulo 1). Para sus experimentos, y como se vio en el Capítulo 4, cons- 
truyó unas ingeniosas cajas-problema que, aunque de rudimentario diseño, 
le permitieron estudiar experimentalmente la conducta de los animales. Es- 
tas cajas se encontraban cerradas con una puerta que el animal podía abrir 
accionando un pestillo. Sus sujetos experimentales, generalmente gatos, 
estaban hambrientos cuando se colocaban en el interior de la caja. La co- 
mida se situaba en un recipiente a la vista de los animales, aunque lejos de 
su alcance. El modo de obtener la comida era el problema que tenían que 
resolver los gatos de Thorndike. Tras varios intentos infructuosos, los ani- 
males conseguían «por casualidad» accionar el pestillo para abrir la puerta 
y así acceder a la comida. En intentos sucesivos la rapidez con que los gatos 
conseguían abrir la puerta de la caja iba disminuyendo progresivamente, 
hasta el punto de que nada más introducirlos en la caja eran capaces de 
salir casi inmediatamente. Estos resultados experimentales constituyeron 
en parte la tesis doctoral de Thorndike, que presentó en 1898, obteniendo el 
primer grado de doctor en la historia de la psicología del aprendizaje, apro- 
ximadamente un año después de que Pavlov hubiera iniciado sus estudios 
sobre los reflejos condicionados (Boakes, 1984). 
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Thorndike formuló las leyes necesarias para explicar el aprendizaje, en- 
tre las que destaca la «ley del efecto» y que quedó enunciada de la siguiente 
manera: «De las varias respuestas que se dan en la misma situación, aque- 
llas que van acompañadas o estrechamente seguidas de satisfacción para 
el animal, siendo constantes otras condiciones, tenderán a conectarse más 
firmemente con la situación, de modo que, cuando ésta se repita, tales res- 
puestas tendrán mayor probabilidad de volver a ocurrir; aquellas que van 
acompañadas o estrechamente seguidas de malestar para el animal, siendo 
constantes otras condiciones, verán debilitadas sus conexiones con tal si- 
tuación, de modo que, cuando ésta se repita, tales respuestas tendrán me- 
nor probabilidad de ocurrir. Cuanto mayor sea la satisfacción o el malestar, 
mayor será el fortalecimiento o debilitamiento del vínculo» (Thorndike, 
1911, p. 244). Aunque la formulación de la ley del efecto ya se trató en el 
Capítulo 4, aquí es importante considerarla de nuevo por sus repercusiones 
teóricas. La ley del efecto en realidad es una ley teórica, que postula que la 
fuerza de la asociación E-R (o percepción de la situación e impulso motor, 
en el lenguaje de Thorndike) no depende de los principios asociacionistas 
clásicos que explicaban el condicionamiento pavloviano, más bien dichas 
asociaciones dependen de la propia consecuencia de la acción. Como se 
dijo en el Capítulo 1, el pensamiento de Thorndike fue que el efecto de una 
acción actúa retroactivamente para sellar la asociación que conduce a tal 
efecto. La ley del efecto reemplazó a comienzos del siglo XX el antiguo prin- 
cipio de Spencer-Bain, según el cual cualquier acción espontánea que fuera 
seguida de sentimientos subjetivos de placer o de disminución del dolor era 
más probable que volviera a ocurrir. El trabajo de Thorndike inauguró así 
la investigación experimental en condicionamiento instrumental. 


Durante los años treinta y cuarenta del siglo Xx, la investigación en 
condicionamiento y aprendizaje animal gozó de un auge extraordinario. 
La influencia de Pavlov y de Thorndike fue decisiva para que en los Esta- 
dos Unidos de América un grupo relativamente amplio de investigadores 
centraran su interés y sus discusiones en torno a la naturaleza asociativa 
del aprendizaje. Fueron tiempos donde la formulación de teorías del apren- 
dizaje pretendía dar una explicación coherente de la conducta animal y 
humana en general, y de esta época es necesario destacar a tres grandes 
investigadores: Edwin R. Guthrie (1886-1959), Clark L. Hull (1884-1952) 
y Edward C. Tolman (1886-1959). Véase el Capítulo 1 para una primera 
consideración de sus contribuciones. 
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Edwin R. Guthrie es quizás el continuador más directo del pensamiento 
de Watson. Guthrie (p. ej. 1935) opinaba que la función del reforzador en el 
aprendizaje es facilitar la formación de una asociación entre el estímulo y la 
respuesta, por lo que a este autor se le suele identificar con el esquema E-R. 
La contribución de Guthrie, sin embargo, no es exclusivamente teórica. 
Guthrie fue quien primero distinguió entre actos y movimientos, argumen- 
tando que todo comportamiento está formado de movimientos musculares 
discretos. Guthrie y Horton (1946) realizaron una serie de experimentos 
con gatos utilizando cajas-problema semejantes a las empleadas con an- 
terioridad por Thorndike. Los gatos podían escapar de la caja accionando 
una palanca colocada en su interior, resultando que la mayoría de los ani- 
males ejecutaban la conducta sin grandes dificultades. Guthrie y Horton 
(1946) fotografiaron la ejecución de sus gatos y comprobaron que todos 
ellos escapaban de la caja-problema pero que cada uno lo hacía de manera 
muy diferente. Algunos accionaban la palanca con una de sus patas delan- 
teras, otros la accionaban con el hocico. Según Guthrie el acto de escapar 
de la caja-problema se podía efectuar con movimientos diferentes, y, en su 
experimento con Horton, cada gato había aprendido una cosa diferente si 
los movimientos para escapar de la caja eran también distintos. 


Clark L. Hull (1943) utilizó, como Guthrie, los principios de la asocia- 
ción E-R para explicar el comportamiento aprendido. El papel del refuerzo 
para Hull es, sin embargo, algo diferente que el otorgado por Guthrie. La 
consecución del reforzador, según Hull, refuerza la formación de una aso- 
ciación E-R debido a una reducción del impulso, introduciendo así el con- 
cepto de motivación en la teoría del aprendizaje. Para que los animales eje- 
cuten una acción determinada es imprescindible que tengan una necesidad 
biológica, que queda reducida por la consecución del reforzador y que en 
consecuencia produce un incremento en la fuerza de la asociación entre el 
estímulo y la respuesta. Hull (1943) desarrolló la primera teoría formal so- 
bre la formación de los hábitos, convirtiéndose así en el más clásico de los 
psicólogos hipotético-deductivos del aprendizaje y en el mejor exponente 
de la corriente de pensamiento conocida como neoconductismo. Posterior- 
mente Hull (1952) introdujo el concepto de incentivo para poder explicar 
resultados como los de los efectos de contraste que no se podían explicar 
únicamente en base a la noción de impulso (véase el Capítulo 4). La con- 
secución del reforzador, según Hull, reduce las necesidades del organismo 
(impulso) al tiempo que incita a la acción (incentivo), distinguiendo estos 
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dos aspectos motivacionales de los reforzadores, que quedaron incorpora- 
dos a la ecuación que determina la fuerza de la respuesta como factores 
separados. La ejecución conductual va a depender de la fuerza del hábito 
(A), del nivel de impulso (D=drive) y del valor del incentivo (1), siguiendo 
la Ecuación 5.10 (nótese que tanto la ejecución como la fuerza del hábito 
están en función de la conexión E-R): 


Er = ¿HpxDxI 


Edward C. Tolman es generalmente descrito como el defensor de un 
esquema estímulo-estímulo (E-E) en el aprendizaje, contrario a la teoría 
E-R. Varios datos experimentales sirvieron a Tolman para apoyar este pun- 
to de vista. Por ejemplo, un grupo de ratas fue entrenado para nadar por 
un pasillo con la finalidad de conseguir comida al final del mismo. Una vez 
realizado este aprendizaje, se situó un suelo falso en el laberinto de ma- 
nera que las ratas podían llegar a conseguir la comida corriendo. Tolman 
(1932) describe este experimento indicando que, a pesar de que no se había 
enseñado a las ratas a correr para llegar al final del pasillo, todas las ratas 
del experimento ejecutaron la conducta adecuada para conseguir la comi- 
da. Si el aprendizaje de las ratas hubiera sido exclusivamente el de nadar 
por el pasillo, nunca habrían podido correr casi inmediatamente después 
de situar el suelo falso en la segunda parte del experimento. Para Tolman, 
las ratas aprendieron un «mapa cognitivo» del pasillo y podían trasladarse 
de un extremo al otro del mismo de la forma física adecuada para cada 
momento. Las ratas en este experimento aprendieron dónde ir y no tanto 
a efectuar unos movimientos musculares concretos, resultado opuesto al 
predicho por los defensores de un esquema E-R para el aprendizaje. Con 
este experimento Tolman no sólo intentó demostrar que los cambios en la 
conducta atribuidos al aprendizaje son el resultado de la intervención de 
procesos como la expectativa de recompensa, sino que al mismo tiempo 
para Tolman es necesario distinguir entre el aprendizaje y la ejecución, 
no resultando necesario el reforzador para el aprendizaje pero sí para la 
ejecución. 

Tolman (1932) recoge varios ejemplos experimentales donde, en oca- 
siones, los animales pueden estar aprendiendo una determinada tarea y, 
sin embargo, no ejecutar en ese momento la respuesta requerida para la 
consecución del premio. Una situación experimental de este tipo es, por 
ejemplo, la denominada de aprendizaje latente (Blodgett, 1929), donde los 
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sujetos experimentales recorren un laberinto pero no se les recompensa por 
hacerlo. Una vez finalizada esta fase del experimento, se vuelve a situar a 
los animales en el laberinto y se refuerza con comida la respuesta correcta. 
En circunstancias como ésta se comprueba que los animales experimenta- 
les aprenden a efectuar la respuesta correcta más rápidamente que otros 
animales de control que no habían tenido la oportunidad de recorrer el la- 
berinto en primera instancia. Se dice entonces que los animales experimen- 
tales habían aprendido ya a recorrer el laberinto antes de empezar a recibir 
el premio, pero que no ejecutaban la respuesta porque faltaba el reforzador. 
El reforzador o recompensa, de acuerdo con Tolman, no es necesario para 
el aprendizaje, pero es imprescindible para que posteriormente se ejecute la 
respuesta aprendida. Esta característica de los reforzadores es diferente de 
la propuesta por las teorías E-R del aprendizaje. En este caso, el reforzador 
estampa la conexión entre el estímulo y la respuesta, pero la ejecución de 
la respuesta es provocada por la mera presentación del estímulo ambiental 
antecedente. A pesar de esta diferencia esencial entre los planteamientos de 
Tolman y Hull, ambos autores coincidirían en señalar que el aprendizaje y 
la ejecución son aspectos separables (recuérdese la ecuación de Hull donde 
el aprendizaje - el hábito - es sólo uno de los factores que determinan la 
ejecución, pero no es la ejecución misma). 


Seguramente los mecanismos asociativos E-R y E-E puedan estar am- 
bos implicados en el aprendizaje instrumental, siendo el mecanismo E-R 
más específico en cuanto que establece formas precisas para producir las 
respuestas, y no sólo la adquisición de la asociación. A través del meca- 
nismo E-R se pueden entender por qué determinadas respuestas son más 
adecuadas a determinados estímulos antecedentes y en función de las con- 
secuencias que hayan seguido a las respuestas con anterioridad, un meca- 
nismo que establece reglas de ejecución y no sólo de aprendizaje. 


4. REGLAS DE EJECUCIÓN OPERANTE 


Para explicar el desarrollo de la fuerza de la respuesta no todas las solu- 
ciones han sido de tipo asociativo, de hecho hay un grupo de psicólogos que 
han propuesto que la asociación realmente no es la única solución posible 
(ni quizás la solución) y han propuesto aproximaciones conductuales que 
son herederas del planteamiento conceptual de B. F. Skinner (p. ej., Skin- 
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ner, 1950). B. F. Skinner propuso que en el condicionamiento operante los 
reforzadores seleccionan las respuestas, no otorgando un papel necesario 
a la formación de ningún tipo de asociación concreta, ni E-R, ni E-E. El 
papel que otorgó a los estímulos ambientales fue el de señalizadores al 
disponer la oportunidad de que las respuestas se vieran recompensadas, 
sirviendo los estímulos ambientales antecedentes como moduladores de las 
relaciones entre las respuestas y los reforzadores (en términos asociativos 
como moduladores de una asociación respuesta-reforzador), pero no se les 
otorga ningún papel elicitador como es característico de posiciones más re- 
flexológicas. En la base de esta concepción se encuentra la distinción entre 
estímulo condicionado, como en el condicionamiento clásico, y estímulo 
discriminativo, como en el condicionamiento operante. 


4.1. Teoría de la probabilidad diferencial 


Premack (1965) señaló que las respuestas que acompañan a los estímu- 
los reforzadores son actividades altamente probables, mientras que las acti- 
vidades instrumentales son menos probables. La razón de que una respues- 
ta se convierta en reforzadora viene determinada por su probabilidad de 
ocurrencia en la línea de base: «Dadas dos respuestas en un procedimiento 
de condicionamiento instrumental, la respuesta más probable reforzará 
a la menos probable y la respuesta menos probable no reforzará a la más 
probable» (Premack, 1959, 1965). 


El principio del reforzamiento de Premack puede considerarse un 
desarrollo de la idea de que los reforzadores no tienen características in- 
trínsecas en sí mismos sino que derivan su efecto de las disposiciones expe- 
rimentales en forma de relaciones de contingencia y que cualquier evento, 
sea un estímulo o una respuesta, potencialmente puede convertirse en un re- 
forzador eficaz. El principio de Premack tiene dos supuestos fundamentales 
para que una actividad pueda convertirse en un reforzador. Primero, dicha 
actividad debe ser preferida en la línea de base, y segundo, la probabilidad 
de ocurrencia de la actividad preferida debe restringirse y ocurrir de forma 
contingente con la realización de una actividad menos preferida, fruto de 
lo cual la actividad menos preferida se convierte en instrumental. Como 
resultado de la operación de reforzamiento, la actividad reforzadora ocurre 
a menor probabilidad que en condiciones de libre acceso y la actividad ins- 


267 


PSICOLOGÍA DEL APRENDIZAJE 


trumental aumenta su probabilidad de ocurrencia. Esto es de hecho lo que 
normalmente ocurre en los experimentos de condicionamiento operante. En 
una situación típica, animales que tienen un cierto nivel de hambre deben 
accionar un operando de respuesta para conseguir una pequeña cantidad de 
comida. En condiciones de acceso ilimitado a la comida y de disponibilidad 
continuada del manipulando, los animales que tienen hambre dedicarán la 
mayor parte del tiempo a comer y muy de vez en cuando pueden presionar 
una palanca o picar una tecla iluminada. Para que la operación de reforza- 
miento pueda tener lugar, hay que restringir el acceso a la comida y hacerlo 
contingente con la emisión de la respuesta instrumental (la de menor proba- 
bilidad de ocurrencia en la línea de base), que en consecuencia aumentará 
su frecuencia de aparición o su probabilidad de ocurrencia. De lo anterior 
también se concluye que las actividades con una menor probabilidad de 
ocurrencia en las situaciones de libre acceso nunca podrán reforzar a las 
actividades con una mayor probabilidad de ocurrencia. 


Premack y sus colaboradores llevaron a cabo muchos experimentos 
para comprobar su teoría. En uno de los experimentos, Premack (1962) 
alteró las probabilidades de las respuestas cambiando las condiciones de 
privación. En un estudio, las ratas fueron privadas de agua, pero no de la 
oportunidad de correr por una rueda de actividad. En esas circunstancias 
beber era más probable que correr, y la oportunidad de beber pudo reforzar 
el correr por la rueda. En un segundo estudio, las ratas no fueron privadas 
de agua, y así, en esas circunstancias, correr era más probable que beber. 
Correr podía utilizarse para reforzar la bebida. Así pues, correr y beber 
podían usarse indistintamente como respuestas reforzadoras e instrumen- 
tales, dependiendo del estado de privación de agua del animal. 


En un experimento con niños, tras una línea de base donde se midieron 
las preferencias individuales por comer golosinas o jugar a las maquinitas 
del millón, se realizaron dos fases en las que cada actividad se hizo con- 
tingente a la otra. Los niños que preferían comer golosinas, aumentaron 
su tasa de jugar a las maquinitas para conseguir dulces, mientras que los 
niños que preferían jugar con las maquinitas no incrementaron su tasa de 
jugar por el hecho de que esta actividad fuera seguida de comer dulces. 
Cuando las contingencias se invirtieron haciendo dependiente el jugar a 
las maquinitas de haber comido una cantidad de dulces, sólo los niños que 
prefirieron aquella actividad en la línea de base aumentaron su consumo de 
golosinas (Premack, 1965). 
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Premack complementó el principio del reforzamiento con otro para- 
lelo sobre el castigo. En esta ocasión, Premack argumentó que la activi- 
dad de más baja probabilidad puede castigar a la de mayor probabilidad 
siempre y cuando se aumente su probabilidad de ocurrencia y suceda 
contingentemente con la actividad más preferida, que como resultado de 
dicha operación disminuirá su frecuencia de aparición en relación con 
su ocurrencia en la línea de base. De aquí también se desprende que las 
actividades más preferidas nunca podrán castigar a las actividades menos 
preferidas. 


La posición teórica de Premack es plenamente conductual y se deriva 
de la tradición skinneriana, cuyo eje central es la ley empírica del efecto en 
oposición a la ley teórica del efecto defendida por Thorndike. Traslada el 
problema del reforzamiento a un plano diferente que el resto de las teorías 
consideradas en el apartado anterior. Esta forma de concepción teórica 
siempre estará limitada por no saber la razón última de por qué los sujetos 
prefieren una actividad más que otra en la prueba de libre elección, pero 
la contestación a esta pregunta puede que resulte innecesaria para la psi- 
cología del aprendizaje, siendo la respuesta de corte más bien biológico y 
no necesariamente incompatible con concepciones como la defendida por 
Premack. 


La teoría de la probabilidad diferencial es simple a la vez que compleja. 
Por un lado es simple y tiene un gran poder predictivo. Para predecir si una 
conducta reforzará a otra, simplemente basta con medir sus probabilidades 
bajo una condición de línea de base, donde las dos conductas estén libre- 
mente disponibles en ausencia de limitación alguna. Evaluadas después en 
un programa de reforzamiento, una actividad reforzará a la otra si, y solo 
si, ésta era más probable que la otra en la situación de línea de base. No 
importa si la conducta provoca placer, reduce una necesidad, provoca una 
activación fisiológica, o simplemente es característica de la especie, lo úni- 
co importante es que sea más probable que la otra conducta en condiciones 
de libre acceso. 


Por otro lado, es compleja en cuanto a la medida de la probabilidad de 
la respuesta. Una posible medida es la frecuencia con la que ocurre dicha 
respuesta. Esa medida es buena siempre que comparemos respuestas pare- 
cidas, por ejemplo las presiones a dos palancas (véanse los programas con- 
currentes), pero ¿cómo comparar las frecuencias de actividades tan distin- 
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tas como hacer un crucigrama o comer? ¿cuál es la unidad conductual, dar 
un bocado o tomarse la ración entera?, ¿resolver una palabra del crucigra- 
ma o el crucigrama entero? Para solventar este problema, Premack sugirió 
que la probabilidad de la respuesta debía de considerarse en una dimensión 
temporal, de forma tal que pudiera definirse como el tiempo dedicado a una 
actividad particular sobre el tiempo total. El periodo de observación en la 
línea de base es, por consiguiente, crucial para valorar la probabilidad de 
las respuestas que ocurran sólo periódicamente. Por ejemplo, aunque en un 
día dedicamos mucho tiempo a comer, la actividad de comer no se distri- 
buye uniformemente a lo largo del día. Es altamente probable a unas horas 
determinadas. Dado que las probabilidades de las respuestas varían con el 
tiempo, Premack sugirió que la medida de la respuesta más apropiada es la 
probabilidad momentánea. 


4.2. Teoría de la privación de respuesta 


En la mayoría de los procedimientos de condicionamiento operante, 
la probabilidad momentánea de la respuesta reforzadora se mantiene a 
un nivel alto. Esto se consigue restringiendo la oportunidad de realizar la 
respuesta reforzadora. Es decir, la respuesta reforzadora tiene que ser más 
probable que la instrumental y estar restringida. Premack formuló el refor- 
zamiento en función de las probabilidades relativas de las respuestas ins- 
trumentales y reforzadoras. Sin embargo, el propio Premack se dio cuenta 
de que no basta con la probabilidad diferencial, la eficacia del reforzador 
depende de que estén limitadas las posibilidades de ejecutar esa respuesta. 


Eisenberger, Karpman y Trattner (1967) propusieron una hipótesis más 
radical, consistente en que los programas de reforzamiento incrementarán 
la frecuencia de ocurrencia de la respuesta operante por encima de su línea 
de base si, y sólo si, dichos programas privan al individuo de realizar la 
respuesta reforzadora. 


La direccionalidad en el principio del reforzamiento propuesta por Pre- 
mack es cuestionada por la hipótesis de privación de respuesta (Allison, 
1989; Timberlake y Allison, 1974). Según esta propuesta, para que una 
actividad pueda funcionar como un reforzador eficaz sólo es necesario 
restringir la realización de dicha actividad en relación con su ocurrencia 
en el punto de bienestar (o línea de base con acceso ilimitado a todas las 
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actividades), pero no es necesario que dicha actividad tenga que ser más 
preferida que la que se va a convertir en actividad instrumental. Como se 
puede comprobar, esta hipótesis es todavía más relativa que la de Premack 
sobre el concepto de reforzador, y de hecho en su formulación elude refe- 
rirse a algo así como el reforzador para poder explicar el proceso de condi- 
cionamiento. Puede esquematizarse así: I/R > Oi/Or, siendo I = Respuesta 
Instrumental, R = Respuesta Reforzadora, Oi = Conducta Observada en la 
línea de base (la que luego será instrumental), Or = Conducta Observada en 
la línea de base (la que luego será reforzadora). Refleja que la proporción 
entre una actividad instrumental y una reforzadora debe ser mayor que la 
proporción observada entre estas dos actividades en el punto de bienestar. 


Imaginemos una situación donde a una rata se le permite el libre acceso 
a dos actividades, beber de una botella y correr por una rueda, y que se ob- 
tienen los resultados representados en la Figura 5.9. El punto de bienestar 
es dar 400 lametones y realizar 200 giros en la rueda. Beber resultaría una 
actividad preferida sobre correr. Ahora se restringe la oportunidad de beber 
y se hace contingente a la ocurrencia previa de una cierta actividad de girar 
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la rueda, conforme a lo estipulado por el principio de Premack. Correr sería 
la respuesta instrumental y beber la respuesta contingente o reforzadora, 
y el resultado de dicha operación de reforzamiento sería la línea A de la 
figura. En concreto, se representa un programa de reforzamiento de RF-1, 
donde cada giro en la rueda de actividad va seguido de la emisión de un 
lametón a la botella con agua. Como se puede apreciar, la contingencia no 
pasa por el punto de bienestar, y lo que la teoría pretende determinar es 
cómo se ajustarán los animales a la contingencia (que se debe aceptar como 
supervivencial) aceptando las limitaciones impuestas por el medio. El argu- 
mento puede ser el siguiente. Para intentar restablecer su punto óptimo (de 
bienestar), el animal debe ejecutar la respuesta instrumental designada por 
encima del nivel que existía cuando la respuesta era irrelevante para obte- 
ner el reforzador. La frecuencia de la respuesta o su tasa se estabilizará en 
el punto en que el coste de incrementos mayores en la respuesta sobrepase 
el beneficio de obtener el reforzador lo más cerca posible del nivel alcan- 
zado en la línea de base. Este punto es como el representado sobre la línea 
A porque es el que minimiza la distancia al punto de bienestar cumplien- 
do con la contingencia de reforzamiento (Staddon, 1979). Como se puede 
apreciar, en este punto la actividad instrumental ha aumentado en probabi- 
lidad de ocurrencia, al tiempo que la actividad contingente ha disminuido 
su probabilidad, en relación con el punto de bienestar, de acuerdo también 
con el principio de Premack. 


La situación crítica que diferencia la hipótesis de privación de la res- 
puesta del principio de Premack es cuando, en la Figura 5.7, lo que se res- 
tringe es la actividad de correr, en principio de menor probabilidad que la 
de beber. En este caso, el animal tiene que dar un determinado número de 
lametones para tener acceso a la rueda de actividad, lo que en el ejemplo se 
representa por la línea B y se corresponde a un programa de RF-4. Según 
la hipótesis de privación de la respuesta este tipo de contingencia es posible 
y los datos experimentales parecen confirmar esta predicción (p. ej., Allison 
y Timberlake, 1975), por otro lado contraria a uno de los supuestos del 
principio de Premack (véase anteriormente). Los animales distribuirán sus 
comportamientos de acuerdo al punto representado sobre la línea B porque 
es el que minimiza la distancia al punto de bienestar, de manera que la acti- 
vidad instrumental (beber, la que era en principio más probable) aumenta, 
y la actividad contingente (correr) disminuye, su frecuencia de ocurrencia 
en relación a la línea de base. 
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Si los argumentos presentados han quedado lo suficientemente claros, 
no debe ser difícil determinar a simple vista qué actividad es instrumental 
y cuál contingente en figuras como la aquí representada. Observando el 
punto de bienestar y los ejes cartesianos, se puede establecer la regla de que 
la contingencia que se desvía en dirección opuesta a uno de los ejes desde 
el punto de bienestar, la actividad representada en dicho eje se restringe y 
por lo tanto constituye la actividad reforzadora. 


La hipótesis de privación de respuesta ha sido aplicada a muchas si- 
tuaciones de condicionamiento operante, resultando en predicciones rela- 
tivamente novedosas y contraintuitivas. Tomemos por caso la frecuencia 
de reforzamiento, considerada anteriormente en relación con la ley de 
igualación. De acuerdo con lo allí tratado, a una mayor frecuencia de refor- 
zamiento se debe esperar una mayor tasa de respuesta. En otras palabras, 
cuanto más largo sea el intervalo entre reforzadores, la tasa de respuesta 
deberá ser menor. Esta función lineal negativa se desprende de forma lógica 
de la idea de igualación, pero también se ha obtenido con la utilización de 
programas básicos de reforzamiento (Catania y Reynolds, 1968). La hipóte- 
sis de privación de respuesta, sin embargo, predice que la tasa de respuesta 
y la tasa de reforzamiento deben relacionarse en forma de U-invertida y no 
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de manera lineal. Específicamente, a medida que disminuya la frecuencia 
de reforzamiento, la tasa de respuesta instrumental debe aumentar, para 
posteriormente disminuir a intervalos entre reforzadores aún mayores. La 
Figura 5.10 ilustra como resultaría cada una de estas dos funciones. 


El argumento que se sigue por la hipótesis de privación de respuesta 
para predecir que la función debe ser bitónica es que a medida que el re- 
querimiento del programa sea mayor (una longitud mayor del programa de 
razón o de intervalo), el número de respuestas debe aumentar inicialmente 
porque el beneficio de obtener el reforzador compensa el coste de respon- 
der más frecuentemente. Sin embargo, si el requisito del programa au- 
mentara demasiado, el coste de responder en exceso no compensaría más 
la baja frecuencia de reforzamiento obtenido. Timberlake y Peden (1987) 
obtuvieron funciones bitónicas para los programas de IV y RF (véase, tam- 
bién, Felton y Lyon, 1966). 


Veamos cómo funciona la idea gráficamente para los programas de RF. 
La Figura 5.11 ilustra una situación experimental típica en los laboratorios 
de psicología del aprendizaje, aunque el ejemplo sea totalmente arbitrario 
y cumpla un propósito meramente didáctico. Una rata que tiene hambre 
tiene a su disposición comida y una palanca de respuestas, en condiciones 
de libre acceso consumirá más bolitas de comida que presionará la palanca. 
Supongamos que el punto de bienestar se corresponde con la ingesta de 
100 bolitas de comida y la realización de 10 presiones de palanca. Si intro- 
dujéramos ahora un programa de RF-1 por la que cada presión de palanca 
fuera seguida de la administración de una bola de comida, la contingencia 
sería como la de la línea A de la figura. Se puede calcular, como se hizo 
anteriormente, la distancia mínima al punto de bienestar, y así se puede 
predecir hasta dónde se puede forzar la respuesta instrumental de la rata 
de acuerdo a esa contingencia de reforzamiento. Si se alargarse el requisito 
de la razón, se debería reducir la frecuencia de reforzamiento, al tardarse 
más en completar el programa. Esto es lo que ocurre en las otras dos si- 
tuaciones representadas en la figura. Un programa de RF-5 (línea B) aleja 
la contingencia del punto de bienestar, pero todavía existe algún punto en 
la contingencia donde la distancia es significativamente menor al punto 
de bienestar. Esto hace que el animal tenga que efectuar más presiones 
de palanca para acercarse lo más posible a su óptimo conductual. Cuando 
la frecuencia de reforzamiento disminuya más todavía y el requisito del 
programa se alargue en exceso, la distancia mínima desde la contingencia 
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al punto de bienestar será grande, y, lo que es más importante, no existirá 
ningún área de la contingencia que sea significativamente mejor que otra. 
Esta es la situación que se puede producir en el ejemplo con un programa 
de RF-25 (línea C). 


Un aspecto interesante que se deriva del análisis anterior es que la ob- 
tención de una función lineal o bitónica puede depender de la longitud de la 
sesión experimental, puesto que las contingencias se separan más a medida 
que se aumente el número de reforzadores administrados (véase la Figura 
5.11). Cuando las sesiones experimentales sean relativamente cortas, co- 
mo en la mayoría de los experimentos, la función que relaciona la tasa de 
respuesta con la tasa de reforzamiento debería tender hacia la linealidad, 
lo que reconcilia esta posición teórica con los resultados generalmente 
encontrados en investigaciones previas como las comentadas en apartados 
anteriores de este capítulo. 


Número de presiones de palanca 
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Figura 5.11. Punto de bienestar y restricciones impuestas por diferentes programas de 
razón fija, según la hipótesis de la privación de respuesta. 


275 


PSICOLOGÍA DEL APRENDIZAJE 


Teorías del aprendizaje (Resumen) 


Para explicar por qué se realizan (fortalecen) las respuestas a través del 
proceso de reforzamiento ha habido dos aproximaciones generales, que son 
históricas y que continúan en la actualidad. Por una parte, se ha pensado que 
los reforzadores participan de alguna manera en la formación de asociaciones 
entre los estímulos y las respuestas, bien sea directamente a través de asocia- 
ciones E-R o a través de asociaciones entre estímulos (asociaciones E-E). Co- 
mo alternativa a la postura asociacionista se ha desarrollado la aproximación 
que considera que el reforzamiento actúa sobre la conducta a través de un pro- 
ceso seleccionista, de manera que se selecciona respuestas concretas porque en 
el pasado resultaron ventajosas. Ejemplos de este tipo de aproximación son la 
teoría de la probabilidad diferencial, más conocida como principio del refor- 
zamiento de Premack, y la teoría de la privación de respuesta, que tienen 
en común la defensa de que una actividad va a funcionar como un reforzador 
eficaz si está restringida con respecto al óptimo al que se desarrollaría dicha 
actividad en situaciones de no limitaciones ambientales. 
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TÉRMINOS DESTACADOS 


Asociaciones E-R vs. E-E: Para explicar la adquisición de fuerza de una res- 
puesta tradicionalmente se ha pensado que se forman asociaciones entre 
los estímulos y las respuestas. Este tipo de explicación no se adecúa a 
todos los resultados experimentales, habiendo sido necesario postular la 
co-ocurrencia de asociaciones estímulo-estímulo. La explicación E-R ha 
sido importante para establecer reglas de aprendizaje, pero también para 
determinar reglas de ejecución de lo ya aprendido. 


Autocontrol (frente a impulsividad): Elección de un reforzador grande de- 
morado frente a la elección más natural de reforzadores pequeños inme- 
diatos (impulsividad). El peso de la inmediatez de la recompensa influye 
normalmente más en la conducta que la magnitud del reforzador (siguien- 
do el principio de contigúidad temporal), una forma de contrarestarlo es 
demorar aunque sea brevemente el reforzador pequeño, resultando en que 
esperar un poco más para un premio mayor se vuelve más atractivo. El va- 
lor de los reforzadores basado en las características de magnitud y demora 
se puede cuantificar siguiendo un modelo hiperbólico. 


Funciones de retroalimentación: Son descripciones de las posibles relaciones 
existentes entre aspectos ambientales relacionados con la ocurrencia del re- 
forzador (por ejemplo, su frecuencia de ocurrencia) y aspectos de ejecución 
conductual (como puede ser, por ejemplo, la frecuencia de ocurrencia de la 
respuesta). Por lo general en los programas de razón se encuentran funcio- 
nes lineales, mientras que en los programas de intervalo se encuentran fun- 
ciones hiperbólicas. Las funciones de retroalimentación se corresponden 
con una explicación molar de las relaciones del ambiente con la conducta. 


Ley de igualación: Es una relación matemática que establece una equipara- 
ción entre la tasa relativa de respuesta entre las alternativas existentes en un 
programa concurrente y la tasa relativa de reforzamiento que acompaña la 
elección de dichas alternativas de respuesta. La conducta de elección predi- 
cha por la ley de igualación se ha visto influida por factores como los sesgos 
de respuesta y la sensibilidad a las consecuencias de reforzamiento, lo que 
ha llevado a su reformulación matemática dando lugar a la ley generalizada 
de la igualación. 


Mejoramiento: Teoría propuesta para explicar la elección en programas con- 
currentes de reforzamiento y basada en la idea de que siempre se respon- 
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derá para mejorar la tasa local de reforzamiento, dando como resultado 
la igualación al equipararse las tasas locales de reforzamiento fruto de 
que a las alternativas de respuesta se les darán respuestas, se obtendrán 
reforzadores y se les dedicará un tiempo que estarán en proporción al re- 
forzamiento disponible en dichas opciones de respuesta. El mejoramiento 
es una alternativa teórica que tiene elementos molares y moleculares de 
explicación de la conducta. 


Programas básicos de reforzamiento: Son reglas que determinan cómo se 


reforzarán las respuestas, destacando cuatro programas fundamentales: 
razón fija, razón variable, intervalo fijo e intervalo variable. La diferencia 
entre ellos se basa en el criterio de si se reforzará la respuesta que completa 
un número determinado de respuestas o la respuesta dada después de haber 
pasado un tiempo especificado, criterio que tanto en un caso como en otro 
puede ser fijo o puede variar de una ocasión a la siguiente. Los programas 
de razón mantienen por lo general tasas de respuesta más altas que los de 
intervalo, y los programas fijos, a diferencia de los variables, generan pau- 
sas post-reforzamiento. 


Programas compuestos secuenciales de reforzamiento: Hace referencia a 


la presentación en sucesión de al menos dos programas básicos de reforza- 
miento, destacando los programas mixto, múltiple, tándem y encadenado, 
cuya diferencia radica en cómo se pasa de uno a otro de los programas 
componentes y si existe señal discriminativa para los mismos. 


Programas concurrentes y conducta de elección: Se refieren a la disposi- 


ción de dos o más programas básicos de reforzamiento de forma simultá- 
nea, de manera que para obtener el reforzador se tiene que elegir a cuál 
de ellos responder. La forma en que se programan las contingencias de 
reforzamiento en las alternativas de respuesta determina la forma en que 
se elegirá entre ellas. 


Programas (y teoría) de reforzamiento diferencial de tiempos entre res- 


puestas: Se puede reforzar específicamente que se separen las respuestas 
entre sí por un tiempo mínimo (un programa de reforzamiento diferencial 
de tasas bajas de respuesta) o por un tiempo máximo (un programa de re- 
forzamiento diferencial de tasas altas de respuesta), lo que genera respecti- 
vamente responder lenta o rápidamente. Este reforzamiento diferencial de 
los tiempos entre respuestas se piensa que está involucrado en la ejecución 
de todos los programas de reforzamiento aunque específicamente no se 
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hubiesen programado así, y responde a un tipo de explicación característi- 
co de una aproximación teórica molecular (frente a la explicación de tipo 
molar). 


Sensibilidad al reforzador: Estimación de cuanto una característica de re- 
forzamiento influye en su efecto, de manera que no todas las variables que 
definen a los reforzadores (como su frecuencia o magnitud) contribuyen lo 
mismo a determinar el valor de los mismos, ni tienen el mismo valor para 
todos los individuos. Estimar la influencia relativa de una característica 
de reforzamiento en relación a otras, y con referencia a cada sujeto, es 
importante para poder determinar las preferencias en pruebas de elección 
como las de los programas concurrentes. Un parámetro de sensibilidad es 
incorporado a la ley generalizada de la igualación para poder explicar por 
qué en ocasiones la mejor alternativa es preferida por encima de lo que 
objetivamente vale (sobreigualación) y en muchas otras es preferida por 
debajo de lo que vale (infraigualación). 


Teoría de la privación de respuesta: Propuesta teórica que matiza el princi- 
pio del reforzamiento de Premack al postular que lo único necesario para 
que una actividad pueda funcionar como reforzadora es restringir su ocu- 
rrencia con respecto a su óptimo (ahora denominado punto de bienestar), 
pero que no es necesario establecer ninguna jerarquía de preferencias para 
saber si las actividades instrumental y reforzadora son diferencialmente 
preferidas. 


Teoría de la probabilidad diferencial: También conocida como principio de 
Premack, y por la que se propone que para que una actividad pueda fun- 
cionar como reforzadora debe ser preferida sobre la actividad que se quiere 
reforzar y hacerla posible sólo de forma contingente a la realización previa 
de la conducta instrumental, para lo cual habrá que restringir su ocurrencia 
en relación a los niveles óptimos de preferencia (pues si no estuviese res- 
tringida dicha actividad no podría funcionar como reforzadora). 
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CONOCIMIENTOS PREVIOS 


Conducta de elección. Se considera que un individuo ha tomado una deci- 
sión o ha elegido una opción cuando emite una respuesta en una situación 
en la que existían más de una alternativa de respuesta disponible. Aunque 
podría considerarse que cualquier conducta es una elección (responder vs. 
no responder) este fenómeno suele estudiarse mediante la aplicación de 
programas de reforzamiento concurrentes. 


Contingencia y Acontingencia. Podría equipararse a la correlación o la cova- 
riación entre dos eventos. Es decir, cuándo la aparición de un evento está 
relacionada con la presencia o aparición de un evento anterior. La relación 
de contingencia puede ser directa (positiva), cuando la aparición del evento 
B es muy probable tras la aparición del evento A, o inversa (negativa) cuan- 
do tras el evento A es poco probable que aparezca B. Si no existe ninguna 
de estas dos relaciones entre A y B, es decir, tras A existe aproximadamente 
un 50% de que aparezca B, se considera que la contingencia es nula, no 
existe, o que la relación es de Acontingencia. Es importante señalar que la 
relación de contingencia no implica causalidad, A no tiene porqué producir 
B para que correlacionen. 


Extinción y Castigo. Las dos maneras más usuales de disminuir la probabili- 
dad futura de una operante que está siendo sometida a reforzamiento son 
la aplicación o bien de Castigo o bien de Extinción. En un procedimiento 
de Castigo positivo, o castigo simplemente, la emisión de la respuesta tiene 
como consecuencia la aparición de un evento aversivo. En el Castigo nega- 
tivo, o entrenamiento de Omisión, la consecuencia tras la respuesta es la 
no presentación de un reforzador cuya probabilidad de aparición era alta. 
En ambos se establece algún tipo de contingencia (positiva o negativa) con 
la consecuencia. Sin embargo, la aplicación de Extinción a una respuesta 
reforzada positivamente implica romper la contingencia que mantenían 
la respuesta y el reforzador, es decir, que cuando se emita la conducta no 
aparezca el reforzador. 


Reforzamiento positivo y Reforzamiento negativo. En una contingencia 
operante, aquellos procedimientos que producen un aumento de la pro- 
babilidad futura de que la conducta se emita (en un contexto similar) se 
denominan Reforzamiento. Si el procedimiento consiste en hacer contin- 
gente positiva la aparición de un reforzador con la emisión de la respuesta 
se considera un Reforzamiento Positivo, o simplemente reforzamiento. Si 
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en el procedimiento la contingencia que mantienen la respuesta y la con- 
secuencia es negativa, y la consecuencia es de naturaleza aversiva, ya sea 
escapando de ella o evitando su aparición, se denomina Reforzamiento 
Negativo o entrenamiento de Escape/Evitación. 


OBJETIVOS 


e Abordar el concepto de «control por el estímulo» como la identificación de la 
causa del comportamiento observado. 


e Diferenciar entre los fenómenos de discriminación y generalización como 
polos opuestos (y complementarios) de un mismo continuo, así como cono- 
cer las diferentes técnicas para determinar en qué puno del continuo se 
encuentra el comportamiento de un individuo. 


e Distinguir entre un tratamiento funcional de los eventos y un tratamiento 
topográfico. 


e Saber interpretar un gradiente de generalización, identificando si se trata de 
un control excitatorio o inhibitorio y el grado de generalización mostrado. 


e Diferenciar entre los elementos y características del control simple por el 
estímulo y el control condicional. 


e Conocer los factores de los que depende la adquisición de la conducta dis- 
criminativa, es decir, de que un evento adquiera control sobre la conducta. 


+ Comprender de qué depende el resultado de la interacción entre los diferen- 
tes gradientes de generalización (excitatorio e inhibitorio) cuando se realiza 
un entrenamiento de discriminación intradimensional. 


El objeto de estudio de la psicología es la conducta, toda la conducta: la 
pública y la privada, la refleja y la operante, la consciente y la inconscien- 
te. El objetivo de la psicología científica es establecer relaciones causales 
entre los eventos antecedentes a una conducta y la aparición de la misma, 
no hay que olvidar que la causa siempre antecede al efecto. Identificar este 
tipo de relaciones entre eventos es lo que nos permite predecir y controlar 
nuestro objeto de estudio; predecir en función de nuestra información 
sobre las causas, y controlar en función de nuestra capacidad para mani- 
pularlas. 


La explicación de un evento (B), por tanto, consistiría en determinar la 
relación causal que mantiene con otro evento anterior (A). Una vez cono- 
cida esta relación causal, podría considerarse que la aparición de B está 
controlada por la aparición de A, o lo que es lo mismo, que B es función de 
A, razón por la que también se les denomina a estas conexiones «relaciones 
funcionales». Por supuesto, estamos simplificando enormemente la reali- 
dad. El comportamiento de un individuo (nuestra variable dependiente) 
rara vez está determinado por un único factor (variable independiente), 
pero la complejidad es la interacción de elementos más simples, y analizar 
consiste justo en eso: en distinguir y separar las partes de un todo para 
conocer sus elementos. Así que vamos a analizar. 


Volviendo al título del capítulo, cuando usamos la expresión «control de 
la conducta por el estímulo» nos referimos a la explicación de un comporta- 
miento por la aparición de algún evento anterior. Este evento causal (ante- 
cedente) puede ser una imagen, un sonido, la conducta de otro, o incluso 
nuestra propia conducta. Cualquiera de estos ejemplos estaría funcionando 
como un estímulo de control siempre que fuese la causa del comportamien- 
to en cuestión. Sin embargo, existen importantes diferencias en el control 
por el estímulo en función del tipo de respuesta que estamos analizando: 
refleja u operante (o instrumental). Por esta razón dedicaremos la primera 
parte del capítulo a distinguir estas dos modalidades. 
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El control por el estímulo implica ajuste al ambiente. Los estímulos 
ante los que es adaptativo desplegar según qué reflejo pueden cambiar de 
un contexto a otro. Las consecuencias que le siguen a la emisión de una 
misma respuesta (topográficamente hablando) son diferentes en función de 
las circunstancias. Comportarse de la misma forma ante cualquier estímulo 
puede ser perjudicial para el individuo, pero también puede serlo que cada 
configuración estimular requiera de un condicionamiento específico para 
que adquiera control sobre la conducta, sobre todo teniendo en cuenta que 
existen infinitas posibilidades de configuraciones estimulares. El bienestar, 
y en ocasiones la supervivencia, del organismo depende de su capacidad 
para adaptarse a las exigencias del ambiente y el control por los estímulos 
juega un papel fundamental en esa adaptación. 


En este sentido, consideramos que un organismo está generalizando 
cuando variaciones del estímulo que ha adquirido cierto control sobre su 
conducta siguen manteniendo dicho control, mientras que estaría discri- 
minando si esas variaciones implican la pérdida de control. Generalizar 
y discriminar son los polos opuestos de un continuo, generalizamos más 
cuando discriminamos menos y a la inversa. Situarse en una posición u 
otra de ese continuo no implica por sí mismo un mejor ajuste, depende, 
como siempre, de las exigencias del ambiente. Dedicaremos el segundo 
apartado del capítulo a desarrollar estos conceptos y el tercero a describir 
los procedimientos a través de los cuáles se identifica la posición del indivi- 
duo en el mencionado continuo. 


El cuarto apartado abordará las principales teorías que explican el fenó- 
meno de la generalización. Los siguientes se destinarán a describir fenóme- 
nos más complejos, como el control por estímulos compuestos, el control 
condicional y otros fenómenos de relevancia. Así como las variables que 
determinan que un sujeto generalice o discrimine respecto a los estímulos 
de control. El último apartado se dedicará a repasar las principales teorías 
que se han propuesto para explicar el fenómeno de la generalización/dis- 
criminación. 


1. CONTROL PAVLOVIANO Y CONTROL OPERANTE 


El control por el estímulo pavloviano es más fácil de abordar. Hemos 
visto en capítulos anteriores como las especies han evolucionado desa- 
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rrollando ciertas respuestas innatas (RI) ante 
determinados estímulos (El), y como estas res- 
puestas pueden extenderse ante otros estímulos 
mediante el condicionamiento clásico (o pavlo- 
viano). Los estímulos incondicionados (El) y 
los estímulos condicionados (EC) funcionan, 
por tanto, como los estímulos de control para 
las respuestas reflejas o elicitadas (RI y RC). 


El caso de la conducta operante es muy 
diferente. La conducta emitida, no elicitada, es 
aquella que no es disparada de forma automáti- 
ca por la presencia de un evento antecedente (El 
o EC). La emisión de una respuesta, sin embar- 
go, depende de múltiples factores, por lo que su 
predicción se torna probabilística. Esta proba- 
bilidad está determinada por las consecuencias 
que le han seguido en el pasado, por la motiva- 
ción del individuo, por el coste que representa 
su emisión, por las alternativas de respuesta que 
están disponibles, etc. Pero ésto no significa que 
la conducta operante no esté controlada por la 
estimulación antecedente. Los procedimientos 
de condicionamiento operante y los programas 
de reforzamiento (y castigo) aumentan o dismi- 
nuyen la probabilidad de que una conducta se 
emita en el futuro, pero ninguna conducta se 
emite en el vacío, siempre hay algún contexto, y 


Ejemplo 


Si reforzamos posi- 
tivamente la conducta 
«decir papá» de un niño 
pequeño (aplicamos 
un entrenamiento de 
recompensa), aumenta- 
remos la probabilidad 
de emisión de dicha 
conducta, haciendo que 
el niño repita el sonido 
en cualquier situación 
a una tasa significativa- 
mente mayor a la que lo 
hacía inicialmente. Sin 
embargo, podemos ir 
limitando el refuerzo a 
las ocasiones en las que 
su padre esté presente, 
de forma que cuando se 
encuentre ausente no 
se le recompense esa 
conducta (se la some- 
ta a extinción). Con el 
tiempo, el niño sólo dirá 
papá en presencia de su 
padre, lo que implica un 
control por el estímulo 
de la conducta del niño. 


cuando este contexto es contingente con la presencia de algún procedimien- 
to y/o programa adquiere propiedades de control sobre la operante. 


El control por el estímulo de la conducta operante no es habitual, es 
omnipresente. Pulsamos el interruptor de la luz si la habitación está a 
oscuras pero no si la bombilla está encendida, cantamos en voz alta en el 
karaoke pero no mientras cenamos con nuestros suegros, cruzamos con la 
figura del semáforo en verde pero no en rojo, etc. Por supuesto, de nuevo, 
todo esto depende no sólo de los eventos antecedentes (luz, karaoke, semá- 
foro) sino también de nuestra historia previa, motivación, etc. Pero la mul- 
tiplicidad de variables independientes no implica la negación de cada una 
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de ellas por separado, sólo que hay que tener más elementos en cuenta para 
mejorar nuestra predicción/control. 


Los eventos de control de la conducta operante, estos contextos a los que 
nos referimos, se denominan estímulos discriminativos (Skinner, 1938), y 
se dividen en positivos y negativos. Los estímulos discriminativos positivos 
(Ed+ o E+), también llamados simplemente «discriminativos», son aquellos 
que mantienen una contingencia positiva con el reforzamiento de alguna 
conducta, ya sea mediante un entrenamiento de recompensa (reforzamien- 
to positivo) o de escape/evitación (reforzamiento negativo). Los estímulos 
discriminativos negativos (Ed- o E-), también llamados «estímulos delta» 
(EA), serían aquellos contingentes con el castigo (castigo positivo), con el 
entrenamiento de omisión (castigo negativo) o con la extinción de una con- 
ducta. La presencia del Ed+ aumenta las probabilidades de que se emita la 
conducta con cuyo reforzamiento ha sido contingente, mientras que la pre- 
sencia del Ed- la disminuye. Así el ambiente selecciona en cada momento 
las unidades de dos términos (Respuesta-Consecuencia) adecuadas. 


Es importante señalar varias cuestiones respecto a los estímulos discri- 
minativos: 


1) Un mismo estímulo discriminativo puede modificar la probabilidad 
de emisión de varias conductas, no son exclusivos. De la misma 
forma que una misma conducta puede encontrarse bajo el control de 
diferentes discriminativos. 


2) La presencia de un estímulo discriminativo no modifica la probabilidad 
de cualquier operante, sólo de aquellas con las que ha mantenido algu- 
na relación de contingencia con su reforzamiento, castigo o extinción. 


3) La presencia de un discriminativo no implica la aparición de un refor- 
zador o un estímulo aversivo por sí mismo, indica que existe una alta 
o baja probabilidad de que tras la emisión de la conducta ésta sea 
reforzada (cuando es un E+) o castigada/extinguida (cuando es un E-). 


4) Si una conducta está bajo el control de un discriminativo positivo 
debe haberse condicionado también uno o más discriminativos nega- 
tivos para esa misma conducta, y a la inversa. En el ejemplo ante- 
rior, si la presencia del padre se ha convertido en un discriminativos 
positivo para decir papá (porque sólo en su presencia se refuerza esa 
respuesta), el resto de personas, incluida su madre, se han converti- 
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do en discriminativos negativos para la misma conducta porque han 
estado presentes durante la extinción de la misma. 


5) De la misma forma que el control de un EC puede extinguirse, el con- 
trol de un discriminativo puede desaparecer si la conducta deja de 
mantener la contingencia con la consecuencia que mantenía durante 
la adquisición. 


Este nuevo elemento explicativo que hemos incluido conlleva unas 
notables implicaciones en el análisis del comportamiento. Si bien la con- 
tingencia mínima pavloviana es de dos términos (EIl-RI o EC-RC), la ope- 
rante consta de tres términos. De la misma forma que no puede entenderse 
una respuesta refleja sin el estímulo que la desencadena, el análisis de la 
respuesta operante debe tener en cuenta a los discriminativos que la con- 
trolan. Como veremos, ésta es la contingencia mínima pero no la única, 
la cantidad y complejidad de los estímulos de control pueden (y de hecho, 
suelen hacerlo) aumentar extraordinariamente. 


2. GENERALIZACIÓN Y DISCRIMINACIÓN 
Desde una perspectiva funcional, un estímulo puede ser cualquier even- 


to siempre y cuando su presencia produzca alguna reacción en el sujeto, es 
decir, cumpla la función de estímulo para ese 


sujeto. No es una definición circular, en un aná- 
lisis funcional cada evento se etiqueta según el 
papel que representa respecto a otros eventos. 


Desde una perspectiva topográfica o estruc- 
tural (basada en las propiedades físicas del 
evento) un estímulo puede ser exteroceptivo 
si proviene del medio externo al organismo 
(como el sonido de un claxon o el olor de un 
cocido), o interoceptivo si proviene del medio 
interno (como el latido de nuestro corazón, el 
malestar gástrico o como un paisaje imaginado 
o una palabra pensada). Otra posible distinción 
son los denominados estímulos propioceptivos, 
que son aquellos generados por la posición y 
el movimiento del cuerpo. Y una última distin- 


Ejemplo 


Si ante la pregun- 
ta (evento 1) «¿Qué 
hora es?» respondemos 
(evento 2) «las cuatro 
y media», el evento 1 
es una operante para el 
sujeto que la emite pero 
un discriminativo para 
nosotros, de la misma 
forma que el evento 2 
es una respuesta para 
nosotros pero un discri- 
minativo positivo para 
la emisión de la respues- 
ta «gracias» por parte de 
la otra persona. 
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ción, algo más compleja, son los llamados estímulos relacionales, que son 
aquellos que dependen de la conexión que mantienen entre sí dos o más 
elementos. Por ejemplo, respecto a éste último, si reforzamos la respuesta 
«decir igual» ante la presentación de figuras idénticas pero castigamos o 
extinguimos la misma conducta ante figuras diferentes, el estímulo que 
adquirirá control sobre esa respuesta (el E+) no será ni cada figura por 
separado ni el estímulo compuesto que representan sino la relación que 
mantienen entre sí. 


Pero lo que es más importante para este apartado, desde un punto de 
vista estructural, los estímulos están compuestos por rasgos o propiedades. 
Un observador puede etiquetar un círculo rojo como un estímulo unitario, 
pero ese estímulo está formado por diferentes propiedades como el tama- 
ño, la tonalidad cromática, el olor, el tacto, la velocidad a la que se mueve, 
su dirección, etc. Y esas propiedades pueden ser compartidas por otros 
eventos que dicho observador etiqueta como estímulos diferentes. Es rele- 
vante destacar que el concepto de novedad no es absoluto. No existen dos 
estímulos exactamente iguales ni completamente diferentes, incluso si nos 
presentan dos figuras exactas nunca podrán compartir los mismos rasgos 
espacio-temporales. Todos los estímulos comparten algún rasgo y todos se 
diferencian de los demás en alguno y, por tanto, ¿hasta qué punto es adap- 
tativo para un individuo comportarse de la misma forma ante estímulos 
semejantes? Pues, como adelantábamos en la introducción, depende de las 
exigencias de su entorno, y para ajustarse a estas exigencias los organismos 
han desarrollado dos capacidades complementarias y contrarias: la genera- 
lización y la discriminación. 


Cuando un estímulo adquiere cierto control sobre la conducta (El, EC 
o Ed) todos los rasgos que componen dicho estímulo adquieren cierto 
grado de control, aunque no necesariamente en la misma medida, algunos 
probablemente más que otros. Esto implica que cualquier estímulo que 
comparta alguno de estos rasgos también puede ejercer cierto control sobre 
esa conducta del sujeto, y en la medida en que compartan propiedades el 
control será más o menos parecido al que ejerce el estímulo con el que sí se 
ha tenido experiencia de condicionamiento. En otras palabras, aunque no 
hayamos tenido experiencia con algún estímulo dependiendo de lo que se 
parezca (comparta rasgos) a un El, EC o Ed controlará nuestra conducta. 
Este fenómeno se denomina generalización del estímulo, y es considerada 
por algunos autores (Pavlov, 1927) como una capacidad innata selecciona- 
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da por su valor adaptativo, ya que nos permite comportarnos de manera 
efectiva ante estímulos «nuevos». 


Pero no siempre es adaptativo responder de la misma forma ante estí- 
mulos diferentes (generalizar), en ocasiones pequeñas diferencias entre 
estímulos pueden significar consecuencias completamente diferentes para 
la misma topografía de conducta. El botón de encendido/apagado de un 
ordenador puede parecerse mucho al de reinicio, la llave de nuestro coche 
puede ser casi igual que la de nuestra casa, nuestro padre puede parecerse 
mucho a nuestro tío, pero a la conducta de pulsar, meter la llave o decir 
papá va a seguirle una consecuencia muy diferente en función del estímulo 
que esté presente. La discriminación consiste en responder de manera dife- 
rente ante estímulos diferentes, y, al contrario que la generalización, esta 
capacidad requiere de entrenamiento. A este entrenamiento se le denomina 
condicionamiento discriminativo o reforzamiento diferencial, y al compor- 
tamiento resultante conducta discriminativa o respuesta diferencial. 


Aunque más adelante se detallarán los diferentes tipos de entrenamien- 
to discriminativo, de una forma simple, y como ejemplo, podríamos descri- 
birlos de la siguiente manera: 


a) Control pavloviano. Presentamos de forma contingente positiva 
un sonido (EC1) y una descarga (El), mientras que hacemos que 
una luz (EC2) mantenga una contingencia nula con la descarga. 
Consideraríamos que existe control por el estímulo si la respuesta 
condicionada excitatoria aversiva sólo es elicitada en presencia del 
EC1 y no del EC2, es decir, si el sujeto discrimina entre el EC1 y el 
EC2. Si la respuesta condicionada se emite ante los dos estímulos 
o no se emite ante ninguno concluiríamos que no existe tal control. 


b) Control operante. Hacemos que el reforzamiento positivo de una 
conducta correlacione positivamente con la presencia de una luz roja 
(E1) y negativamente con una luz verde (E2). Si el sujeto emite esa 
respuesta concreta (R) con una tasa mayor (o más frecuentemente, 
o de forma más intensa) en presencia del El que en presencia del 
E2 consideraremos a la luz roja como un discriminativo positivo 
para esa conducta y a la luz verde como un discriminativo negativo 
(o delta). De esta forma, la ejecución del sujeto es una prueba de 
que discrimina entre ambos estímulos, es decir, que su conducta se 
encuentra bajo el control de éstos. 
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Antes de pasar al siguiente apartado, vamos a señalar algunos aspectos 
importantes respecto a la dicotomía generalización/discriminación, algu- 
nas ya esbozadas anteriormente: 


1) 


2) 


3) 


El control por el estímulo es un continuo en cuyos extremos se 
encuentran la generalización y la discriminación, en posiciones 
opuestas. Esto significa que cuando un sujeto está demostrando una 
alta generalización también podría etiquetarse como una baja discri- 
minación, y a la inversa. De la misma forma, se considera que existe 
mayor control por el estímulo cuánto mayor es la discriminación 
demostrada, mientras que si el sujeto exhibe un alto grado de gene- 
ralización se estima que el control por el estímulo es bajo. 


La generalización no es más adaptativa que la discriminación ni 
al contrario. La generalización de un estímulo va descendiendo a 
medida que el sujeto es expuesto a reforzamiento diferencial ante 
variaciones de dicho estímulo. Que generalizar o discriminar sea más 
adaptativo va a depender de las exigencias del ambiente. Distinguir 
(discriminar) entre 30 tonalidades de blanco puede ser muy adapta- 
tivo en Groenlandia (para no pisar un oso polar, por ejemplo), pero 
no mucho si vives en Egipto. No obstante, en términos generales, 
cuánto mayor es nuestra discriminación entre los estímulos más fino 
es nuestro ajuste al medio, ya que emitimos respuestas diferenciales 
ante pequeñas variaciones del contexto. 


La generalización y la discriminación se pueden producir con todos 
los estímulos que ejercen control sobre la conducta, incluido los 
estímulos discriminativos. Los estímulos discriminativos (a pesar 
de su nombre) están sujetos también a la generalización. Cualquier 
modalidad de paso de cebra, por ejemplo, puede ejercer el mismo 
control sobre nuestra conducta de cruzar la calle que la que ejerce la 
modalidad concreta con la que se ha condicionado dicha respuesta, 
por supuesto, este control va a depender de cuánto se parecen. 


3. MEDICIÓN DEL CONTROL POR EL ESTÍMULO: 
LOS GRADIENTES DE GENERALIZACIÓN 
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proceso neurológico primario (Pavlov, 1927) en el que la activación de cier- 
tas áreas cerebrales, provocada por la presencia del EC, se extiende a áreas 
próximas asociadas a otros estímulos similares. Esta aproximación al fenó- 
meno como un proceso primario es compartida (aunque matizada) por otros 
autores como Hull (1943), aunque no es la única teoría explicativa. Lashley 
y Wade (1946), por ejemplo, conciben la generalización como un fallo en la 
discriminación. Para estos autores, las pruebas de generalización (en la que 
se presentan estímulos «nuevos») producen confusión en los individuos, de 
manera que guían su respuesta en función del parecido con el E+ entrenado. 


A lo largo del capítulo se desarrollarán algunas de las principales teorías 
(especialmente en el último apartado) pero, independientemente de a cuál 
nos acojamos, el hecho es que el control que un estímulo no entrenado 
(estímulo de prueba o generalizado) ejerce sobre una conducta es directa- 
mente proporcional a su semejanza con el estímulo que adquirió ese con- 
trol durante un proceso de condicionamiento (E+ o E- original o criterio). 


Podemos comprobar esta relación a través de varios métodos o proce- 
dimientos (Tabla 1): 


1) Estímulo único. Consiste en entrenar varios grupos de sujetos para que 
un estímulo adquiera cierto control (convirtiéndolo en un E+ o en un 
E-) y después exponer a cada grupo a un estímulo de prueba diferente, 
en cuanto a su parecido con el estímulo original. Comparando la res- 
puesta entre los grupos ante el estímulo de prueba se observaría que 
cuanto mayor es el parecido de éste con el estímulo original mayor es 
la fuerza (probabilidad, tasa, intensidad, etc.) de la respuesta. 


2) Estímulos múltiples. Tras entrenar el estímulo criterio se presenta 
junto a otros estímulos diferentes, uno cada vez, y en extinción (sin 
que aparezca la consecuencia típica de la fase de adquisición). Se 
mediría la fuerza de la respuesta ante todas las combinaciones entre 
el estímulo original y los estímulos de prueba en cada sujeto. Fuerza 
que, teóricamente, debería decrecer en función de lo distinto que sea 
el estímulo de prueba que se presenta junto al original. 


3) Generalización mantenida. El último de los métodos que vamos a 
ver consiste en alternar ensayos reforzados con el estímulo criterio 
con ensayos en los que se presenta algún estímulo de prueba en 
extinción. De esta forma, el sujeto tiene experiencia con todos los 
estímulos de prueba generalizados varias veces y en orden aleatorio. 
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Tabla 1. Resumen de los métodos para la medición del control por el estímulo 
en Condicionamiento Clásico 


Método Entrenamiento Prueba 
Estímulo único EC-El F1/E2/E3/... 
Estímulos múltiples EC-El EC+E1, EC+E2, EC+E3, ... 
Generalización mantenida es ddr ii 
EC-El, EC+E3, ... 


El uso de un método u otro conlleva ventajas y desventajas. En los 
procedimientos de Estímulos Múltiples y de Generalización Mantenida los 
sujetos son expuestos a todas las combinaciones estímulos original-prueba 
o estímulos de prueba seleccionados por el experimentador. El orden en 
el que éstos son presentados puede alterar la fuerza de la respuesta. La 
presentación repetida y aleatoria de dichos estímulos (o compuestos), e 
incluso el contrabalanceo del orden en el que aparecen, es una forma de 
controlar ese efecto. El procedimiento de Generalización Mantenida, ade- 
más, asegura el control del estímulo original ya que el sujeto sigue teniendo 
experiencias reforzadas con él, pero alternar ensayos reforzados con el E+ 
con ensayos en extinción con los estímulos de prueba puede favorecer la 
discriminación del estímulo original, provocando que los resultados mues- 
tren una menor generalización. 


Los procedimientos de 350 
Estímulo Único, sin embar- 
go, aunque son más costo- 
sos, ya que al realizar com- 250 
paraciones entre grupos 


200 
requieren de más tiempo y 
recursos, evitan la posible 150 
influencia en la respuesta 100 
de la experiencia con varios 
estímulos de prueba. Sin 50 
embargo, como cualquier 0 == HH === 
4 oo0UuUDUDUO O O O OO OOOO 
estudio de grupo, el control O 


de variables individuales Se Figura 1. Gradiente de generalización dónde 
menor que en los estudios de el E+ entrenado era de 580 nanómetros (nm). 
caso único. Adaptado de Guttman y Kalish (1956). 


300 


CONTROL DE LA CONDUCTA POR ESTÍMULO 


Independientemente del método que se utilice, el fe2nómeno es suficien- 
temente robusto para mostrar una relación sistemática entre el parecido de 
los estímulos de prueba (o estímulos generalizados) con el estímulo original 
y la cantidad de control que ejercen sobre la conducta. La representación 
gráfica de este decremento en la fuerza de la respuesta en función del aleja- 
miento, en cuanto a parecido con el estímulo criterio, es lo que se denomi- 
na un gradiente de generalización. 


Antes de describir los diferentes tipos de gradientes de generalización es 
necesario aclarar que el control por el estímulo no se limita a que en pre- 
sencia de cierto evento aparezca una determinada respuesta. Los estímulos 
discriminativos negativos (Estímulos Delta, Ed-, o E-) también ejercen 
control sobre la conducta, ya que en su presencia esa respuesta es muy 
improbable, podríamos decir que controla su «no-aparición» o la aparición 
de otras respuestas diferentes. De la misma forma, los estímulos condicio- 
nados inhibitorios también ejercen control sobre la respuesta, aunque ésta 
no pueda medirse directamente (lo que suele denominarse como «silencio 
conductual»). 


La exposición a estímulos generalizados semejantes a discriminativos 
positivos o ECs excitatorios generan gradientes, como el de la Figura 1, con 
forma de U invertida, en los que la mayor cantidad de respuesta se observa 
en los valores cercanos al E+ original y van decreciendo según se alejan de 
él, tanto si disminuye como 
si aumenta el valor del rasgo. 


A este tipo de gradientes se ca 
les denomina excitatorios. 0 
No obstante, si los estí- 
mulos de prueba se parecen en 
a discriminativos negativos o di 
a ECs inhibitorios el tipo de 
gradientes es muy diferente. 50 
Un experimento prototípico 
fue el realizado por Weisman 0 : ' i 
y Palmer, en 1969, en el que 90 -60 -30 0 30 60 90 


usaron la técnica de suma- Figura 2. Gradiente de generalización del 


ción como medida indirecta estímulo mostrado por los sujetos del estudio 
del control de los estímulos de Weisman y Palmer (1956). 
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delta (en temas anteriores hemos visto el uso de esta técnica para medir la 
capacidad elicitadora de ECs inhibitorios). Los autores entrenaron como 
E+ una tecla verde y como E- una tecla verde con una línea vertical blanca, 
después presentaron en la prueba de generalización la tecla verde cruzada 
por líneas con diferente inclinación cada vez (de -30* a +309). En la Figura 
2 puede verse cómo el número de respuestas registrado va aumentando a 
medida que el estímulo de prueba presentado se diferencia más del E- ori- 
ginal. El gradiente inhibitorio, al contrario que el excitatorio, tiene forma 
de U y suele ser menos inclinado. 


La forma del gradiente no sólo nos informa de la naturaleza del estímu- 
lo de control original (E+ o E-), sino también, en función de la pendiente 
del gradiente, del grado de generalización/discriminación que demuestra el 
sujeto. En términos generales, cuánto más plana es la pendiente que forma 
más generalización se ha producido (menos discriminación) y cuando más 
inclinado menos generalización (más discriminación). La explicación es 


G. Excitatorio - alta G. Excitatorio - baja 
generalización generalización 
50 50 
0 T T T T T T 0 I T T T T T 
-30 -20 -10 0 10 20 30 -30 -20 -10 0 10 20 30 
G. Inhibitorio - alta G. Inhibitorio - baja 
generalización generalización 
100 100 
50 50 
e A 
0 T T I I I T 0 I T I T T T 
30 -20 -10 O 10 20 30 -30 -20 -10 0 10 20 30 


Figura 3. Ejemplos de gradientes de generalización con baja y alta discriminación. 
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sencilla: un alto grado de respuestas diferenciales (mucha discriminación 
y poca generalización) implica que la mayoría de las respuestas se dan de 
forma exclusiva ante el estímulo de control original o ante los que se pare- 
cen mucho, de manera que los cambios sutiles presentes en los estímulos 
de prueba son suficientes para que no controlen la respuesta objetivo. De 
la misma forma, si el sujeto sigue respondiendo aunque los estímulos pre- 
sentados difieran mucho del discriminativo (o EC) original obtendremos 
un gradiente plano. En la Figura 3 se muestran dos ejemplos de gradientes 
propios de una alta discriminación y otros dos propios de una alta genera- 
lización, uno excitatorio y otro inhibitorio. 


La utilidad de los gradientes de generalización es múltiple, no sólo nos 
permite confirmar la existencia o no de respuestas diferenciales sino tam- 
bién determinar cuánto tiene que modificarse el ambiente para producir un 
cambio en la conducta del individuo. La forma que adquiere un gradiente 
de generalización, es decir, el grado de generalización o discriminación de 
un estímulo, está determinada por diversos factores relacionados tanto con 
el propio estímulo como con la experiencia previa o con el tipo de entrena- 
miento de discriminación. Al final del capítulo se detallarán los más rele- 
vantes de estos factores. 


4. CONTROL CONDICIONAL 


Hasta ahora hemos abordado el análisis del control por el estímulo en 
singular, es decir, de cómo un solo evento causa determinada conducta. 
Los discriminativos positivos aumentan la probabilidad de cierta respuesta 
mientras que los negativos la reducen, y los estímulos condicionados elici- 
tan reflejos, ya sean de naturaleza excitatoria o inhibitoria. Estas situacio- 
nes en las que el control del ambiente es tan simple son fáciles de replicar 
en un laboratorio pero no son tan habituales en contextos fuera del mismo. 
Las causas que determinan que realicemos una conducta u otra son fre- 
cuentemente complejas, es decir, dependen de más de una variable (sin 
contar factores motivacionales, de historia de aprendizaje o genéticos) y, lo 
que lo hace aún más complejo, de la interacción de esas variables entre sí. 


Cuando el control que ejercen ciertos estímulos sobre nuestra conducta 
está matizado, o depende de la presencia de otros eventos consideramos 
que estamos ante un caso de control condicional. Es importante señalar 
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que estos eventos no afectan directamente a la conducta sino que lo hacen 
a través de los estímulos de control simple (modificando su función), de 
hecho, su presencia en solitario no ejerce ningún control específico sobre 
el comportamiento. 


El control condicional implica la adición de un nuevo término a la con- 
tingencia mínima. Así una contingencia pavloviana simple requiere de un 
evento diferente al EC y al El, denominado modulador, para convertirse en 
una contingencia de control condicional, pasando de dos términos a tres. 
En el condicionamiento operante, que requiere de una contingencia míni- 
ma de tres términos (Ed-R-Er), el nuevo evento de control, denominado 
Estímulo Condicional, aumentaría el número de elementos de la contin- 
gencia a cuatro. 


En este apartado analizaremos ambos casos, tanto el control condicional 
pavloviano (Modulación) como el operante (Discriminación Condicional). 


4.1. Modulación 


El estudio del control condicional en el condicionamiento clásico es 
relativamente reciente, teniendo en cuenta la extensa tradición de la que 
goza la investigación de la conducta refleja y la fecha en la que se realizaron 
los primeros estudios sobre control condicional operante. Los pioneros en 
este campo fueron Robert Rescorla y Peter Holland, que empezaron a estu- 
diar el fenómeno casi simultáneamente y de forma paralela a mediados de 
la década de los 80 (Rescorla, 1985; Holland, 1985). Tal vez por esta razón 
existe cierta duplicidad en los términos utilizados para referirse al estí- 
mulo de control condicional, ya que Holland lo denominó «Establecedor 
de la ocasión» y Rescorla «Facilitador», y desde entonces se han utilizado 
ambos de manera indistinta, existiendo trabajos posteriores que usan tanto 
uno como otro. Actualmente, de hecho, puede utilizarse tanto el término 
«Modulación» como «Establecimiento de la ocasión» (Ocassion Setting) o 
«Facilitación» para referirse al control condicional pavloviano. 


En una situación de modulación la contingencia que mantienen el EC 
y el El depende de la aparición de un estímulo anterior. Por ejemplo, si 
tras presentarse una luz la aparición de un sonido va seguida de comida, 
pero en ausencia de la luz el mismo sonido no va seguido de comida, la luz 
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terminará modulando la función del sonido como estímulo condicionado 
excitatorio apetitivo. Esquemáticamente: 


Luz - sonido (EC) - comida (El) // no luz - sonido (EC) - no comida (El) 


Luz - no sonido (EC) — no comida (El) // no luz - no sonido (EC) — 
comida (El) 


En este hipotético experimento (similar al realizado por Fetsko, 
Stebbins, Gallagher y Colwill, 2005) podemos observar dos cuestiones 
importantes: 


a) 


a) 


La contingencia EC-El es positiva tras la presentación de la luz (luz- 
EC-El, luz-no EC-no El), pero es negativa cuando no ha aparecido 
(no luz-EC-no El, no luz-no EC-ED. En términos de control de la 
respuesta, tras la presentación de la luz el EC elicita una respuesta 
condicionada excitatoria apetitiva, mientras que en ausencia de ésta 
la respuesta elicitada por el mismo EC es inhibitoria apetitiva. 


La luz (el modulador) no mantiene ninguna relación de contingen- 
cia con la aparición del El, ni negativa ni positiva. Si ignoramos, 
solo con objetivos didácticos, el EC de los cuatro ensayos anteriores 
vemos que luz-El, no luz-no El, luz-no El, no luz-El. Es decir, que la 
aparición de la luz predice la presentación de la comida con un 50% 
de probabilidad y su no presentación con un 50% también. En otras 
palabras, no lo predice en absoluto, ya que mantienen una relación 
de acontingencia o de correlación nula. 


Los estímulos que adquieren propiedades moduladoras no elicitan por 
sí mismos respuestas excitatorias ni inhibitorias sino que modifican la 
función de los EC con los que se han asociado. De hecho, la presentación 
repetida en solitario de un modulador no provoca su extinción, en otras 
palabras, el efecto de un modulador no se pierde por su exposición fre- 
cuente siempre que no se quiebre la conexión que mantuvo con la relación 
EC-El durante la fase de adquisición (Rescorla, 1986). 


4.2. Discriminación condicional 


Aunque no fue el primero en estudiar discriminaciones condicionales, 
se considera a Lashley como uno de los pioneros en definir este fenómeno, 
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así como en identificar las propiedades físicas de los estímulos controla- 
dores. En su experimento (Lashley, 1938), ahora un clásico, expuso a tres 
ratas en cajas de salto a una tarea en la que los estímulos discriminativos 
eran siempre un par de triángulos equiláteros, uno hacia arriba y el otro 
invertido. Los dos triángulos aparecían cada ensayo, aunque el fondo en el 
que aparecían variaba cada vez que las ratas conseguían el criterio de 20 
ensayos sucesivos sin error. Cuando el fondo era negro, saltar hacia el trián- 
gulo hacia arriba era reforzado. Sin embargo, si el fondo consistía en ban- 
das horizontales, se requería a las ratas elegir el triángulo invertido. Con 
este procedimiento se estableció una clase de control de estímulo sobre los 
sujetos, de manera que la dirección o sentido de la reacción era condicional 
con respecto a un estímulo adicional de la situación experimental, lo que el 
autor denominó una «reacción condicional». Más tarde, este mismo autor 
demostró que el fondo podía ser alternado aleatoriamente de un ensayo a 
otro sin perjudicar la ejecución de los sujetos, es decir, mantenían el control 
que habían adquirido. 


Las discriminaciones condicionales se definen como aquellas situacio- 
nes de control operante en las que la función de los estímulos discrimina- 
tivos (como positivos o negativos) depende de la presencia de otro evento, 
el estímulo condicional. Es común que en ciertos trabajos se etiquete a los 
estímulos condicionales como Muestras y a los estímulos discriminativos 
como Comparaciones, sobre todo en los estudios en los que se utilizan pro- 
cedimientos de Igualación a la Muestra, una variante de la discriminación 
condicional. 


Por tanto, la contingencia operante en este tipo de situaciones aumenta 
de tres (E-R-C, Estímulo discriminativo-Respuesta-Consecuencia) a cuatro 
(EC-E-R-C) términos, lo que podría esquematizarse de la siguiente forma: 


E. Condicional1-E1-R-C / E. Condicional1-E1-no R-no € 
E. Condicional1-E2-R-no C / E. Condicional1-E2-no R-C 
E. Condicional2-E1-R-no C / E. Condicional 2-Ed1-no R-C 
E. Condicional 2-E2-R-C / E. Condicional 2-E2-no R-no C 


En este ejemplo la presencia del estímulo condicional 1 convierte al El 
en un discriminativo positivo para la conducta R y al E2 en un discrimi- 
nativo negativo para esa misma conducta. Sin embargo, el estímulo con- 
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dicional 2 convierte al E1 en un discriminativo 
negativo y al E2 en un discriminativo positivo. 
Como puede notarse, la presencia de un estí- 
mulo condicional u otro determina la función 
del estímulo discriminativo y, por tanto, su 
control sobre la conducta. De forma análoga a 
la modulación, el estímulo condicional por sí 
solo no controla ninguna respuesta sino la inte- 
racción entre el condicional y el discriminativo. 


Las discriminaciones condicionales tienen 
una historia extensa en Psicología experimental 
(García, 2002). Desde su sistematización por 
Skinner (1950), su uso se ha estandarizado, 
ampliado y adaptado a multitud de especies 
y situaciones experimentales. A pesar de la 
enorme diversidad que podemos encontrar en 
los estudios de discriminación condicional, la 
mayoría de ellos son modificaciones de un pro- 
cedimiento paradigmático con estímulos visua- 
les y palomas como sujetos, que es el procedi- 
miento de tres teclas. En dicho procedimiento, 
el estímulo condicional es presentado en la tecla 
central de una cámara operante, y los estímulos 
discriminativos aparecen en las teclas laterales, 
equidistantes de la tecla central y también del 
comedero donde se dispensa el reforzador. 


Las medidas típicas de ejecución en una 
discriminación condicional son la velocidad de 
adquisición (número de ensayos o sesiones hasta 
un determinado criterio de aprendizaje) y la 
precisión (porcentaje de ensayos con respuesta 
correcta). Otra medida que también se relaciona 
con la precisión es la latencia. La manipulación 
de diversas variables puede facilitar o dificultar 
la ejecución de los sujetos expuestos al aprendi- 
zaje de discriminaciones condicionales. Por lo 
general estas variables afectan simultáneamente 


Ejemplo 


Aunque pueda pa- 
recer un concepto com- 
plicado, estamos conti- 
nuamente expuestos a 
este tipo de relaciones 
de control. Podríamos 
considerar que el inte- 
rruptor de la luz es un 
discriminativo positivo 
para la conducta de pul- 
sarlo pero, en realidad, 
su función depende de 
otros eventos, como que 
la luz esté ya encendida o 
que haya luz natural. En 
presencia de la luz (EC1) 
el interruptor (Ed1) cum- 
ple funciones de discri- 
minativo negativo para la 
conducta de pulsar, en 
presencia de oscuridad 
(EC2) sus funciones son 
de discriminativo positi- 
vo. La conducta verbal, 
además, aumenta enor- 
memente las situaciones 
de control condicional a 
las que tenemos que ajus- 
tarnos. Siguiendo el mis- 
mo ejemplo, en presencia 
de «enciende la luz» el 
interruptor se convierte 
en discriminativo positi- 
vo para pulsar, mientras 
que en presencia de «no 
pulses el interruptor» 
funciona como estímulo 
delta, por supuesto, en 
las condiciones motiva- 
cionalmente adecuadas 
y con el entrenamiento 
como oyente necesario. 
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a la velocidad de adquisición del aprendizaje y también al nivel asintótico 
que los sujetos llegan a alcanzar. Algunos de los parámetros más relevantes 
del aprendizaje de las discriminaciones condicionales se describirán en el 
apartado sobre los factores que afectan al control por el estímulo. 


Hemos visto que en las discriminaciones condicionales la presencia de un 
estímulo condicional u otro modifica la función del estímulo discriminativo 
(como positivo o negativo). Esta relación de control estimular puede seguir 
extendiéndose añadiendo un nuevo estímulo que, en este caso, cambie la 
función del estímulo condicional, que, a su vez, modifica la del discrimina- 
tivo (Bush, Sidman y De Rose, 1989). A este nuevo estímulo de la cadena de 
control estimular se le suele denominar de «segundo orden» (Fujita, 1983), 
«selectores» (Ribes y López, 1985) o «informativos» (Harzem y Miles, 1978). 


En un procedimiento típico de discriminación condicional de segun- 
do orden (Figura 4) se presenta un estímulo complejo «informativo» que 
ejemplifica el criterio de igualación que debe cumplirse al seleccionar un 
estímulo de comparación respecto al estímulo de muestra. 


Comparación correcta por 
«semejanza» 


O O O Comparación correcta por 
«diferencia» 


Comparación correcta por 
«identidad» 


O Estímulo de 
muestra 


Estímulo de segundo orden 
Á | ÁA < Ejemplifica la relación de identidad 


física (misma forma y codlor) 


Figura 4. Ejemplo de discriminación condicional de segundo orden. 
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El criterio de igualación que determina el estímulo de segundo orden 
puede ser de igualdad (cuando se muestran dos estímulos físicamente 
idénticos), de semejanza (cuando los elementos que forman el estímulo 
de «segundo orden» comparten ciertos rasgos pero difieren en otros); o de 
diferencia (cuando no comparten ningún rasgo significativo). 


Este tipo de procedimientos presenta una serie de importantes dife- 
rencias respecto a las discriminaciones condicionales de primer orden, en 
las que el sujeto puede discriminar el criterio de respuesta (en ausencia de 
instrucciones explícitas) sólo a través del reforzamiento explícito. Según 
Ribes, Cepeda, Hickman, Moreno, y Peñalosa (1992), en una igualación a la 
muestra de segundo orden es necesario que el sujeto sea capaz de describir 
verbalmente la relación entre los estímulos de «segundo orden», ya que en 
caso contrario su presencia podría interferir: a) la presentación visual gana 
en complejidad al haber una mayor cantidad de estímulos presentes, b) los 
estímulos de «segundo orden» pueden ser incluidos como parte del arreglo 
de comparación de primer orden. 


La importancia de las contingencias operantes de cinco términos para el 
análisis de ciertas conductas complejas se desarrollará en el capítulo sobre 
Aprendizaje y Cognición. 


5. FACTORES QUE AFECTAN AL CONTROL POR EL ESTÍMULO 


En términos globales, cuánto más se diferencien dos situaciones más 
sencillo es distinguirlas y cuánto más se diferencien los elementos que las 
componen mayor será la diferencia global. Siguiendo esta lógica, y ciñén- 
donos a una contingencia operante, si exponemos a un sujeto a un entre- 
namiento del tipo: E1-R1-C1 / E2-R2-C2, cuánto más se diferencien El de 
E2, R1 de R2, y Cl1 de C2, mayor será la diferencia global entre ambas con- 
tingencias y más fácil será distinguirlas, o lo que es lo mismo, discriminar 
entre ellas. 


Hacer más distintivos los eventos de control (los estímulos que señalan 
diferentes contingencias de reforzamiento), requerir respuestas diferencia- 
les o aplicar consecuencias distintas, son métodos que aumentan la velo- 
cidad de adquisición de la discriminación. La mayor parte de las variables 
que vamos a ver en este apartado pueden entenderse bajo esta norma, 
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pero no son las únicas. A continuación se exponen las más relevantes dis- 
tinguiendo si están relacionadas con los estímulos, las respuestas u otros 
parámetros del entrenamiento, entre los que se incluye el reforzamiento. 


5.1. Relacionados con los estímulos 


5.1.1. Capacidad sensorial 


Para que un evento adquiera control sobre la conducta de un organismo 
es imprescindible que funcione como un estímulo para dicho individuo, 
y esto no siempre es posible. La parte de la realidad ante la que podemos 
reaccionar es como máximo aquella para la que nuestros órganos senso- 
riales están preparados. Existen sonidos, colores y olores fuera del rango 
de audición, visión y olfato humano que sí funcionan como estímulos para 
otras especies. Las diferentes presiones de supervivencia que cada especie 
ha tenido que superar han seleccionado órganos sensoriales con capacida- 
des distintas, permitiendo que el organismo reaccione ante unos eventos (o 
ciertas propiedades del mismo) y no ante otros. Estas diferencias, aunque 
en menor grado, también se encuentran entre individuos de la misma espe- 
cie, ya que el desarrollo de estos órganos está sujeto a cierta variabilidad. 


Evidentemente, la orientación del sujeto respecto al evento añade una 
nueva limitación a la parte de la realidad que puede funcionar como estí- 
mulo. Una pirámide puede funcionar como un simple triángulo si desde 
nuestra posición no podemos ver el resto de las caras. El valor del rasgo 
«tamaño» va a ser muy diferente en función de la distancia que separa el 
objeto del observador, etc. El evento es único, el estímulo es diferente para 
cada individuo. 


5.1.2. Facilidad relativa de condicionamiento de los elementos 
de un compuesto. 


En temas anteriores hemos visto cómo en función de ciertas variables 
el condicionamiento, clásico y operante, se puede dar en mayor o menor 
medida. Diferencias en la saliencia entre varios estímulos (debido a su 
intensidad, relevancia biológica, capacidad sensorial del sujeto, función 
adquirida, cercanía, etc.) puede dar lugar a un fenómeno de ensombreci- 
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miento cuando se condicionan a la vez, determinando cuál de ellos adquie- 
re control sobre la conducta refleja y cuál no. Este mismo fenómeno puede 
afectar al condicionamiento operante, si un estímulo discriminativo está 
constituido por dos componentes, la adquisición del control por parte del 
componente menos saliente puede ser impedida por la presencia de un 
componente más eficaz. El fenómeno del ensombrecimiento indica que los 
estímulos pueden competir por adquirir el control sobre la conducta, de 
manera que los más intensos o destacables dificultan el condicionamiento 
de los estímulos más débiles. 


5.1.3. Modalidad sensorial 


Los estímulos que más extensamente se ha utilizado en los trabajos 
sobre discriminación con animales no humanos han sido los visuales, y 
más particularmente, teclas iluminadas de distintos colores o con líneas en 
distintas orientaciones (Carter y Werner, 1978; Mackay, 1991). Sin embar- 
go, la variedad de estímulos utilizados con éxito en estos estudios con diver- 
sas especies ha sido muy extensa. 


Además de estímulos visuales fijos se han utilizado también soni- 
dos (Hashiya y Kojima, 2001), imágenes en movimiento (Morimura y 
Matzuzawa, 2001), así como objetos tridimensionales comunes (Tomonaga 
y Fushimi, 2002). También se pueden encontrar estudios en los que los 
estímulos utilizados son olores (Peña, Pitts y Galizio, 2006), acciones del 
propio sujeto (Beninger, Kendall y Vanderwolf, 1974) o incluso estímulos 
interoceptivos (Lubinski y Thompson, 1987). 


Pero, como decíamos, los estímulos visuales han sido los más comunes 
en los experimentos de discriminación con palomas. El sistema visual de 
estas aves las hace especialmente apropiadas para discriminar este tipo 
de estímulos, debido probablemente a las intensas presiones selectivas a 
las que se ha visto sometido para tareas como la navegación, el forrajeo y 
la elección de pareja sexual. Los estudios con esta especie han permitido 
determinar que ciertas características de las imágenes son más efectivas 
que otras en el entrenamiento en discriminación. Por ejemplo, Whyte y 
Boren (1976) encontraron que la precisión de sus sujetos era mayor cuando 
los estímulos de muestra utilizados eran colores que cuando eran figuras 
geométricas. 
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5.1.4. Discriminabilidad 


Intuitivamente, la discriminabilidad entre dos estímulos hace referencia 
a lo fácil o difícil que resulta distinguir uno del otro, aunque, operativa- 
mente podríamos definirlo como el cambio en la estimulación necesaria 
para producir un cambio en el comportamiento. La discriminabilidad de 
los estímulos ha recibido mucha atención en la literatura sobre aprendizaje 
animal desde sus inicios (Lashley y Wade, 1946; Guttman y Kalish, 1956), y 
de forma sistemática se ha encontrado que cuanto mayores son las diferen- 
cias en las características físicas de los estímulos, más sencilla es la tarea 
de discriminarlos (White, Pipe y McLean, 1985). 


Pero, aún en las situaciones más simples, referirnos exclusivamente a 
las características físicas del estímulo no nos garantiza una medida fiable 
de la discriminabilidad (ver Honig y Urcuioli, 1981, para una revisión). Al 
margen de las consideraciones puramente psicofísicas implicadas en la 
percepción de los estímulos (Hamilton y Coleman, 1933), existen toda una 
serie de influencias ambientales en la discriminabilidad. Por ejemplo, facto- 
res inherentes a las situaciones experimentales, como la simple exposición 
a los estímulos, influyen tanto en la discriminabilidad como en la asociabi- 
lidad de éstos y en la respuesta de observación que producen. Todos estos 
efectos se mezclan de forma difícilmente distinguible en la mayoría de las 
situaciones, por lo que, aunque pueda determinarse a priori (atendiendo a 
parámetros puramente físicos) la discriminabilidad entre dos estímulos es, 
en muchas ocasiones, un índice que sólo puede averiguarse a posteriori. 


5.1.5. Intensidad de los estímulos discriminativos 


En términos generales, la intensidad de los estímulos discriminativos 
entrenados afecta de manera muy aguda a los gradientes de generalización, 
haciéndolos menos simétricos y desplazando el máximo de respuesta ante 
un valor diferente al E+ original (Mackintosh, 1974). Aunque esto podría 
atribuirse a un efecto «energizador» de la conducta (por el nivel de inten- 
sidad), se han observado las mismas propiedades cuando el E+ era débil 
y el E- intenso (Pierrel y Sherman, 1960; Zielinski y Jakubowska, 1977). 
De hecho, la mayoría de los gradientes generados por estímulos de prueba 
intensos suelen responder a una función monotónica, en lugar de una curva 
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con un máximo de respuesta. Esta función es creciente cuando el E+ es más 
intenso que el E-, y decreciente en el caso inverso. 


5.1.6. Aprendizaje del rasgo positivo 


Experimentos como los de Hearst y Wolff (1989) con palomas pusieron de 
manifiesto que cuando el elemento predictivo único que distingue al E+ del 
E- forma parte físicamente de la presentación del E+, los sujetos aprenden 
con mayor facilidad que cuando el rasgo distintivo forma parte de la presen- 
tación del E-. En su estudio los autores entrenaron a un grupo de palomas 
para picotear una tecla verde con un cuadrado blanco superpuesto a cambio 
de comida (E+) y a no hacerlo cuando la tecla era sólo verde (E-), mientras 
que el picoteo de otro grupo de palomas fue reforzado con comida cuando 
la tecla era sólo verde (E+) y no cuando estuvo superpuesta con el cuadrado 
blanco (E-). Se encontró que el aprendizaje de discriminación fue mejor en 
los animales para los que el rasgo distintivo (el cuadrado blanco) estuvo en 
el E+. A este fenómeno se le denomina aprendizaje del rasgo positivo. 


5.2. Relacionados con la respuesta 


5.2.1. Relación respuesta-reforzador 


Otro factor que puede determinar cuál de los diversos componentes 
de un estímulo discriminativo adquiere un control sobre la conducta es la 
naturaleza de la respuesta requerida para obtener el reforzador. La impor- 
tancia de la respuesta para el control por el estímulo está ilustrada en el 
experimento de Dobrezcka, Szwejkowska y Konorski (1966). Dichos inves- 
tigadores entrenaron a unos perros en una discriminación izquierda-dere- 
cha o actuar-no actuar (grupos 1 y 2, respectivamente) mediante estímulos 
auditivos que diferían tanto en su posición (detrás o delante de los sujetos) 
como en su naturaleza (el sonido de un zumbador o de un metrónomo). 
Durante el transcurso de la prueba, la posición de los dos sonidos fue inter- 
cambiada. Los resultados mostraron que la respuesta diferencial izquier- 
da-derecha era principalmente controlada por la posición de los sonidos, 
mientras que la respuesta diferencial actuar-no actuar era controlada prin- 
cipalmente por la naturaleza de los sonidos. Es decir, el aprendizaje de dis- 
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criminación izquierda-derecha fue más fácil si los sonidos se presentaban 
en diferentes localizaciones espaciales que si se utilizaban diferentes tipos 
de sonido, mientras que el aprendizaje de actuar-no actuar era más fácil 
con diferentes tipos de sonido que con sonidos presentados en diferentes 
posiciones. Por tanto, es más probable que las respuestas que están dife- 
renciadas por la localización (derecha-izquierda) queden bajo el control de 
la distinta posición de los estímulos discriminativos, y que las respuestas 
que estén diferenciadas por su naturaleza quedan bajo el control del tipo 
de estímulo. 


5.2.2. Respuesta de observación a la muestra 


Se ha documentado en numerosos estudio que el establecer como 
requisito una respuesta de observación a la muestra (Wyckoff, 1952) faci- 
lita en gran medida el aprendizaje de las discriminaciones condicionales 
(Eckerman, Lanson y Cumming, 1968). Se considera un requisito de obser- 
vación a la muestra cuando se refuerza alguna conducta del sujeto orienta- 
da al estímulo condicional. El ejemplo más común es retener la aparición 
de los estímulos de comparación hasta que el sujeto toca la muestra. 


Otro efecto importante del requerimiento de respuestas a la muestra es 
que parece influir en el nivel asintótico de la discriminación. Eckerman y 
cols. (1968) comprobaron que después de la adquisición de una discrimina- 
ción en la que se requería picar a la muestra, el porcentaje de aciertos bajó 
entre un 10 y un 25% cuando se eliminó este requisito. 


Además, añadir requisitos adicionales de razón fija hace más eficiente 
este método. Sacks, Kamil y Mack (1972) estudiaron sistemáticamente la 
adquisición de la discriminación condicional con 1, 10, 20 y 40 respuestas 
a la muestra, observando que el grupo de una respuesta necesitó de más 
del doble de sesiones para adquirir la discriminación que el grupo de 40 
respuestas. 


Por otra parte, también se ha encontrado que cuando la propia con- 
ducta es el elemento de muestra a discriminar, el número de respuestas 
puede facilitar la adquisición del aprendizaje. En un procedimiento de dis- 
criminación condicional de la propia conducta con palomas como sujetos 
(García y Benjumea, 2006) los animales a los que se les impidió la respuesta 
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de observación a la muestra mediante un RDO (reforzamiento diferencial 
de otras respuestas) necesitaron entre 1200 y 6000 ensayos para alcanzar el 
criterio de aprendizaje mientras que en el grupo en el que se pedían cinco 
respuestas a la muestra se necesitó como promedio unos 500 ensayos para 
alcanzar el mismo criterio de aprendizaje. 


5.2.3. Respuesta diferencial 


La última variable que vamos a analizar relacionada con la respuesta 
es la posibilidad de que los sujetos realicen respuestas diferentes ante cada 
estímulo de control, bien como requisito del propio entrenamiento (Carter 
y Werner, 1978; Urcuioli y Honig, 1980, por ejemplo) o bien requiriendo 
una respuesta de observación que permita el surgimiento «espontáneo» (en 
el sentido de «no exigido») de conductas diferenciales (Sacks y cols., 1972). 
Por ejemplo, en un experimento de Cohen, Looney, Brady y Aucella (1976) 
se encontró que el aprendizaje de la discriminación condicional era más 
rápido cuando se requería un programa diferente para cada muestra (RF 16 
y RDB 3) que cuando a ambas se aplicaba el mismo programa de RF o RDB 
(Razón Fija y Reforzamiento Diferencial de Tasas Bajas, respectivamente). 


Se ha constatado también que estas respuestas diferenciales pue- 
den aparecer aunque las contingencias del experimento no lo requieran 
(Cumming y Berryman, 1965), e incluso aunque se castigue explícitamente 
(García y Benjumea, 2006). 


5.3. Relacionados con la experiencia previa 

La historia del sujeto, en cuanto a su experiencia con el reforzamiento 
diferencial, influye no sólo en la velocidad con la que adquiere nuevas dis- 
criminaciones, sino también en el grado de generalización que muestra en 
discriminaciones ya adquiridas. Veamos algunos de estos fenómenos. 


5.3.1. Disposiciones de aprendizaje 


Harlow (1949) realizó un estudio con monos a los que sometía a pro- 
blemas de discriminación de objetos mediante un aparato que permitía 
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recompensar la elección correcta y ocultar los objetos ante la incorrecta. Se 
presentaron 312 problemas, oscilando el número de ensayos entre 6 y 50. 
Los resultados mostraron que en las primeras discriminaciones el apren- 
dizaje fue lento, pero a medida que los animales experimentaban con un 
mayor número de problemas, la tasa de aprendizaje aumentaba, de mane- 
ra que en los problemas 257 al 312 los animales respondieron de forma 
correcta en el segundo ensayo casi el 97% de las veces. 


Lawrence (1963) entrenó a un grupo de ratas en una tarea de discri- 
minación, una vez superado el criterio de éxito las expuso a un nuevo 
entrenamiento discriminativo pero de mayor dificultad que el anterior. Los 
resultados mostraron una velocidad de aprendizaje mucho mayor en los 
sujetos de este grupo al compararlos con los de otro grupo que no tuvieron 
la primera experiencia. El experimento fue interpretado por el autor en tér- 
minos de atención. Según Lawrence, el primer entrenamiento, al ser más 
sencillo, permitió a los sujetos atender mejor a la dimensión relevante del 
estímulo y fue esta reacción de atención la que facilitó después la discrimi- 
nación más difícil. 

No obstante, este argumento ha sido discutido y refutado experimen- 
talmente. Seraganian (1979), por ejemplo, entrenó a un grupo de palomas 
para que discriminasen entre diferentes colores para posteriormente entre- 
narlas para que lo hicieran entre inclinación de líneas, de forma similar al 
estudio de Lawrence pero cambiando la naturaleza del estímulo de control. 
Sus datos también mostraron una mejora debida a la fase de entrenamiento 
previa que no podía explicarse por una mayor atención a la dimensión del 
estímulo pertinente en la primera discriminación. El autor defiende que lo 
que mejora es la capacidad general del sujeto para resolver problemas de 
discriminación, no sólo el hecho de atender a un rasgo concreto. 


Los resultados de estos experimentos nos permiten concluir, por tanto, 
que la experiencia con cualquier problema de discriminación, independien- 
temente de qué dimensión se utilice o de su dificultad, favorece las habi- 
lidades generales de resolución de problemas que ayudan al organismo a 
afrontar un problema difícil posteriormente. No obstante, existen matices a 
esta regla general, como por ejemplo el tipo de cambio dimensional. 


En términos generales, la generalización de la discriminación apren- 
dida a otra discriminación «nueva» puede ocurrir entre problemas en los 
que se altera la misma dimensión del estímulo (cambio intradimensional) 
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o cuando se utiliza un nuevo problema de discriminación que implica una 
dimensión estimular distinta (cambio extradimensional o interdimensio- 
nal). Por ejemplo, en la tarea 1 se refuerza por responder ante un color rojo 
y se extingue ante el color verde, mientras que en una tarea 2 posterior se 
refuerza por responder ante el color azul y se extingue la respuesta ante 
el amarillo. Estaríamos ante un caso de cambio intradimensional, pero 
si la tarea 2 tuviese como estímulos de control dos sonidos de diferente 
frecuencia el cambio sería interdimensional. Normalmente, los cambios 
intradimensionales se aprenden con mayor facilidad que los cambios inter- 
dimensionales (Mackintosh, 1964). 


5.3.2. Efecto del sobreaprendizaje en la inversión 


Un efecto peculiar de la experiencia en la adquisición de nuevas dis- 
criminaciones fue el descrito por Mackintosh (1969). Este autor entrenó 
a dos grupos de ratas para realizar una discriminación con el mismo cri- 
terio de eficacia (escoger entre una caja blanca y otra negra para recibir 
alimento), pero a uno de ellos les expuso a 100 ensayos adicionales de 
entrenamiento en esa misma discriminación. Tras esto entrenó a los dos 
grupos en la discriminación inversa, es decir, la caja con comida era ahora 
la contraria que en la fase anterior. El autor encontró que el grupo que 
había recibido entrenamiento extra aprendió la discriminación inversa en 
menos tiempo que el otro grupo. A este fenómeno se le denomina «efecto 
del sobreaprendizaje en la inversión», y es un hallazgo en cierta medida 
contraintuitivo, ya que podría pensarse que el entrenamiento extra forta- 
lecería la discriminación de manera que aprender lo contrario requeriría 
de más ensayos. 


5.3.3. Experiencia de reforzamiento no diferencial 


Pero la facilitación no es la única forma en la que nuestra experiencia 
anterior con discriminaciones puede influir en aprendizajes futuros. Waller 
(1973) reforzó con comida a cuatro grupos de ratas por recorrer un calle- 
jón, variando la pintura del callejón (gris o a rayas) y la probabilidad de 
reforzamiento (530% o 100%) siguiendo un diseño 2x2 como el mostrado en 
la Tabla 2. 
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Tabla 2. Adaptación del diseño experimental del estudio de Waller (1973) 


» p p a 
ODaD dad a O a O 


100% 50% 
Gris Grupo 1 Grupo 2 
A rayas Grupo 3 Grupo 4 


En la segunda fase del estudio todos los sujetos fueron reforzados dife- 
rencialmente (el 100% de las veces) por elegir recorrer un corredor pintado 
con líneas inclinadas 45” a la derecha (E+) o con líneas inclinadas 45” a la 
izquierda (E-). Se midió como variable dependiente el número de ensayos 
necesarios para elegir el E+, en otras palabras, la velocidad de adquisición 
de la discriminación. Los resultados no mostraron diferencias significativas 
entre los grupos 1 y 2, aquellos que habían tenido experiencia con el calle- 
jón gris. Sin embargo, el grupo 4 requirió de muchos más ensayos que el 
grupo 3 para aprender la discriminación. 


Waller consideró estos resultados como un apoyo directo de la teoría 
atencional de la discriminación (el último apartado del capítulo abordará 
más detalladamente esta teoría), argumentando que la experiencia con un 
reforzamiento débil (50%) frente a las rayas había provocado que estos 
sujetos desatendieran la dimensión pertinente del estímulo en la fase 2. 


Pero la experiencia con reforzamiento no diferencial puede afectar 
incluso a aprendizajes anteriores con estímulos diferentes. En un estudio 
de Honig (1974) se entrenó a palomas para discriminar entre una línea 
negra horizontal y otra vertical (Fase 1). Para la segunda fase se dividieron 
los sujetos en dos grupos. A uno de los grupos se le reforzó diferencialmente 
por responder ante una luz azul como E+, mientras se extinguió la respues- 
ta frente a una luz verde como E-. El otro grupo fue reforzado con una 
probabilidad de 0,5 independientemente del estímulo ante el que respon- 
diesen, es decir, no se les aplicó reforzamiento diferencial. La siguiente fase 
consistió en una prueba de generalización de la discriminación adquirida 
por ambos grupos en la Fase 1. Se presentaron en la evaluación 8 estímulos 
verticales de diferente inclinación. Los resultados mostraron un grado de 
generalización mayor en el grupo que había sido expuesto a la fase 2 sin 
entrenamiento discriminativo. Es decir, la fase de exposición a contingen- 
cias de reforzamiento no diferencial afectó a una discriminación aprendida 
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con anterioridad, reduciendo su nivel, aunque los eventos involucrados no 
estaban relacionados (líneas frente a colores). 


Honig también interpretó los resultados en términos de factores aten- 
cionales. Según el autor, el reforzamiento diferencial en la Fase 2 mantuvo 
la atención de los sujetos que fueron expuestos a él. En otras palabras, los 
entrenamientos discriminativos potencian la atención, reduciendo de esta 
forma la generalización. 


5.4. Relacionados con el entrenamiento discriminativo. 


5.4.1. Tipos de entrenamientos discriminativos. 


Hasta ahora hemos descrito las contingencias a través de la cuales se 
adquieren respuestas diferenciales sin especificar la forma en la que se 
presentan los diferentes estímulos de control. Si tenemos que diseñar la 
manera en la que vamos a entrenar una discriminación simple lo primero 
que debemos decidir es si los estímulos de control (al menos un estímulo 
discriminativo positivo y uno negativo) van a aparecer juntos en cada ensa- 
yo O por separado, es decir, solo uno de los dos en cada ensayo. 


Cuando el discriminativo positivo y el negativo aparecen juntos, es 
decir, a la vez en cada ensayo (aunque su posición cambie), se considera a 
esa discriminación como un entrenamiento simultáneo. La conducta diri- 
gida al estímulo discriminativo positivo (picar o pulsar la tecla en la que 
aparece el estímulo, por ejemplo) sería contingente con el reforzamiento, 
mientras que la dirigida al estímulo delta sería sometida a extinción o 
castigo. El resultado de este tipo de procedimientos es que, con suficiente 
entrenamiento, los sujetos terminan respondiendo exclusivamente sobre el 
estímulo discriminativo positivo. 


En el entrenamiento sucesivo no aparecen los estímulos antecedentes 
al mismo tiempo, sino que en determinados momentos está presente uno 
y en otras ocasiones se presenta el otro. Este entrenamiento se denomina 
procedimiento de discriminación de respuesta / no respuesta (o «go-no go»), 
ya que el sujeto acaba respondiendo en los ensayos en los que está presente 
el estímulo discriminativo y no haciéndolo en los que está presente el estí- 
mulo delta. 
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En líneas generales, la adquisición de discriminaciones simples son más 
lentas cuando el procedimiento es sucesivo que cuando es simultáneo. 


En los casos anteriores se establecía una situación con dos condicio- 
nes: una reforzada y otra no reforzada. Esto no tiene porqué ser siempre 
así, pudiendo usarse dos condiciones y ambas reforzadas, pero de distinta 
manera cada una de ellas. Un ejemplo de discriminación simultánea entre 
programas de reforzamiento es el programa concurrente, en el que el sujeto 
está expuesto a dos programas simultáneamente. Por ejemplo, programas 
concurrentes de intervalo variable como IV 30”- TV 60”, donde la primera 
respuesta transcurrido el tiempo medio especificado en cada programa es 
reforzada. El caso de la discriminación entre programas de reforzamiento 
en el que se utiliza una aproximación sucesiva se denomina programa múl- 
tiple, y en él los diferentes programas componentes se presentan de forma 
secuencial en el tiempo y con un estímulo discriminativo diferente para 
cada uno de ellos. De esta manera se desarrollan respuestas diferenciales a 
dos (o más) estímulos siempre que cada estímulo señale un programa dife- 
rente de reforzamiento. Por ejemplo, con el estímulo discriminativo rojo 
funcionaría un programa de razón variable y con el estímulo discriminativo 
verde un programa de intervalo fijo. Como se ve, puede existir respuesta 
diferencial sin que se tengan que producir respuestas ante un estímulo y 
ausencia de respuestas ante otro diferente. 


En los primeros estudios sobre discriminaciones condicionales los 
estímulos de muestra permanecían a la vista de los sujetos durante todo el 
tiempo que duraba el ensayo. Por ejemplo, en el experimento de Lashley 
(1938) la muestra y la comparación se presentaban en una misma cartulina, 
en la que el fondo hacía como estímulo de muestra y la forma como estí- 
mulo de comparación. Esta modalidad en la que el estímulo condicional y 
el/los discriminativo/s se encuentran presentes a la vez se denomina discri- 
minación condicional simultánea. 


Más recientemente, han sido muy comunes los experimentos en los que 
los estímulos de muestra y de comparación no están presentes nunca de 
forma simultánea, sino que media un intervalo de tiempo entre la desapa- 
rición del estímulo de muestra y la aparición del estímulo de comparación 
(Carter y Werner, 1978). Esta manipulación da lugar a las discriminaciones 
condicionales demoradas. Un caso particular dentro de este último grupo 
es la discriminación condicional de demora cero, donde los estímulos de 
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comparación son presentados inmediatamente después del apagado del 
estímulo de muestra. 


La introducción de una demora entre la presentación del estímulo de 
muestra y los estímulos de comparación afecta muy significativamente a 
todos los índices de ejecución en discriminaciones condicionales. Aunque 
existen diferencias entre especies en la duración máxima de la demora que 
pueden tolerar, en general se puede afirmar que los aumentos en la demora 
conllevan decrementos en la ejecución (Mackay, 1991). 


Según afirman Cumming y Berryman (1965), el simple hecho de eliminar 
la muestra en el momento en que aparecen las comparaciones (procedimien- 
to de demora cero) aumenta el número de ensayos necesarios para aprender 
la discriminación con respecto a una discriminación condicional simultánea. 


5.4.2. Eficacia relativa de los elementos del estímulo como señales 
para el reforzamiento 


Wagner, Logan, Haberlandt y Price (1968) llevaron a cabo un experi- 
mento en el que fueron condicionados dos grupos de ratas con un proce- 
dimiento de ensayo discreto. Los sujetos fueron reforzados el 50% de los 
ensayos por presionar una palanca en presencia de un estímulo compuesto 
que consistía en una luz y un sonido de dos posibles. Para un primer grupo 
la luz en compuesto con cualquiera de los dos sonidos era reforzada siem- 
pre el 50% de los ensayos (Luz+Tono1 > Reforzado 50%; Luz+Tono2 > 
Reforzado 50%); para un segundo grupo la luz en compuesto con uno de 
los sonidos era reforzada siempre, pero en combinación con el otro soni- 
do nunca era reforzada (Luz+Tonol > Reforzado 100%; Luz+Tono2 > 
Reforzado 0%). Como se puede observar, con relación a los dos tonos, la 
luz predecía mejor el reforzamiento para el grupo 1 que para el grupo 2. 
En el primer grupo, los sonidos no añadían ninguna información a la ya 
proporcionada por la luz. Consecuentemente, los sujetos respondieron más 
a la luz en el grupo 1 que en el grupo 2. En el grupo 2, por el contrario, res- 
pondieron más al tono 1 que a ningún otro estímulo, reflejando que dicho 
estímulo era el mejor predictor del reforzamiento subsiguiente. 


Los resultados sugieren que los estímulos discriminativos tienen un 
poderoso efecto sobre la conducta no sólo porque están emparejados con 
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el reforzador, sino porque señalan la forma o el momento en que se va a 
producir el reforzamiento. Del mismo modo, si un estímulo es un mejor 
predictor de la disponibilidad del reforzamiento que otro, es más probable 
que adquiera el control de la conducta operante. 


5.4.3. Tipo de reforzamiento 


El control por el estímulo depende no sólo de la eficacia relativa del 
estímulo como señal para el reforzamiento, sino también de la natu- 
raleza del reforzador utilizado. Ciertos tipos de estímulos tienen más 
probabilidad de ejercer un control sobre la conducta con reforzamiento 
positivo que con reforzamiento negativo (entrenamiento de evitación/ 
escape). 


En un experimento de Foree y LoLordo (1973), la respuesta de apretar 
un pedal en palomas fue reforzada en presencia de un estímulo compuesto 
que consistía en un sonido y una luz roja. Con un reforzamiento de comida, 
la luz consiguió mucho más control sobre la conducta que el sonido. Con 
un reforzamiento de evitación de una descarga eléctrica, el sonido consi- 
guió más control sobre la conducta que la luz. 


Estos hallazgos indican que el control por el estímulo sobre la conduc- 
ta instrumental está en parte determinado por el tipo de reforzamiento 
que se utilice. Los estímulos visuales parece que tienen más probabilidad 
de adquirir un control sobre la conducta reforzada positivamente que las 
claves auditivas; y las claves auditivas es más probable que adquieran un 
control de la conducta negativamente reforzada que las claves visuales, al 
menos cuando se usan palomas como sujetos experimentales. 


5.4.4. Consecuencia diferencial 


En tareas de discriminación simple, Peterson, Wheeler y Amstrong 
(1978) con palomas, y Fedorchack y Bolles (1987) con ratas, demostraron 
que si se usan consecuencias diferenciales para cada combinación entre el 
estímulo discriminativo y la respuesta se mejoraba la discriminación. Así, 
si ante el estímulo El el sujeto tenía que emitir la respuesta R1 para recibir 
la consecuencia C1 (comida, por ejemplo), y ante el estímulo E2 tenía que 
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emitir la respuesta R2 para recibir la consecuencia C2 (agua, por ejemplo), 
la velocidad del aprendizaje será mucho mayor que si se hubiera usado un 
sólo tipo de reforzador. 


En cuanto a las discriminaciones condicionales, aunque la mayoría de 
los trabajos que utilizan este tipo de procedimientos lo hacen aplicando el 
mismo reforzador en todos los casos, algunos estudios han encontrado un 
efecto facilitador del uso de distintos tipos de reforzadores en función de la 
comparación correcta. Trapold (1970) encontró este efecto usando comida 
o sacarosa en función de la comparación correcta, Carlson y Wielkiewicz 
(1976) usando diferente número de pellets, DeLong y Wasserman (1981) 
con diferentes probabilidades de reforzamiento, y Maki, Overmier, Delos 
y Gutmann (1995) con reforzadores primarios frente a la posibilidad 
de avanzar al siguiente ensayo. Todos estos autores coinciden en que el 
reforzamiento diferencial favorece la adquisición de la discriminación 
condicional. 


5.4.5. Duración del intervalo entre ensayos 


El lapso de tiempo programado entre la finalización de un ensayo y la 
presentación del siguiente ejerce también un efecto importante en la adqui- 
sición de la discriminación. Holt y Shafer (1973) comprobaron los niveles 
de adquisición de una discriminación condicional en palomas usando inter- 
valos entre ensayos de cinco duraciones diferentes (0, 5, 15, 25 y 60 segun- 
dos). Sus resultados mostraron que el grupo de palomas con un intervalo 
de O segundos entre ensayos mostraban una ejecución a niveles de azar, 
mientras que los grupos con 25 y 60 segundos exhibían los mejores desem- 
peños en la tarea. No obstante, una vez que la discriminación condicional 
ha sido adquirida, parece que la duración del intervalo ejerce poco efecto 
sobre la precisión, excepto cuando el intervalo se elimina por completo. De 
hecho, los autores comentan que incluso los sujetos que habían alcanzado 
un nivel estable de ejecución reducían su nivel de aciertos al esperado por 
azar cuando se les introducía en preparaciones con 0 segundos de intervalo 
entre ensayos. 


Este mismo efecto se ha encontrado con diferentes especies como del- 
fines (Herman y Gordon, 1974), monos (Jarrard y Moise, 1971), y ratas 
(Roberts, 1974). 
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5.4.6. Grado de entrenamiento 


La relación entre la extensión del reforzamiento diferencial (número de 
ensayos de entrenamiento, tasa de reforzamiento, etc.) y el grado de genera- 
lización se ha adelantado varias veces a lo largo del capítulo. Cuanto mayor 
es el entrenamiento para la adquisición de la discriminación más acusado 
es el gradiente formado en la prueba de generalización, es decir, menor 
generalización se observa. 


Este principio se ilustra perfectamente en estudios como el de Hearts y 
Koresko (1968). En este trabajo se reforzó a las palomas por responder a 
una tecla cruzada por una línea vertical (E+). Se midió la respuesta de los 
sujetos ante seis estímulos parecidos al E+ (en los que se varió la inclina- 
ción de la línea) en cuatro momentos diferentes (dividiendo a los sujetos 
en cuatro grupos): tras 2, 4, 7 y 14 sesiones. Los resultados mostraron cla- 
ramente que el gradiente de generalización se iba haciendo paulatinamente 
más acusado en función del número de sesiones de entrenamiento al que 
había sido expuesto cada grupo. 


5.4.7. Entrenamiento en discriminación «sin errores» 


Desarrollado por Terrace (1963), este procedimiento minimiza las res- 
puestas al E-, reduciendo tanto el número de errores cometidos por el suje- 
to como las reacciones emocionales asociadas a la aplicación de extinción o 
castigo (efectos que se desarrollarán en el tema 7 sobre el Control Aversivo). 
En su experimento Terrace reforzó a palomas por responder a una luz roja 
(E+) que se aplicó durante todo el experimento con la misma intensidad y 
duración. El E- (una luz verde), sin embargo, se presentaba a una intensi- 
dad tan baja y durante tan poco tiempo que no permitía responder a él. A 
lo largo del procedimiento se fue aumentando la intensidad y la duración 
del E- hasta equipararse a la que había tenido desde el principio el E+. Los 
resultados mostraron que, si los cambios en el E- son suficientemente gra- 
duales, los sujetos pueden adquirir la discriminación simple sin cometer 
ningún error, es decir, sin responder al E-. 


Este tipo de procedimientos permiten optimizar la adquisición de la dis- 
criminación, demostrando su utilidad en la enseñanza a sujetos con nece- 
sidades educativas especiales, como niños autistas, por ejemplo (Koegel y 
Koegel, 1988). 
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Este mismo principio puede seguirse en el entrenamiento de discrimi- 
naciones condicionales. Por ejemplo, puede presentarse la muestra y la 
comparación correcta con un nivel de intensidad mayor que la compara- 
ción incorrecta, para ir aumentando la intensidad de esta última progresi- 
vamente. O, en lugar de manipular la intensidad (como el brillo, por ejem- 
plo) puede variarse el tamaño (MclIlvave y Dube, 1992). 


5.4.8. Intervalo entrenamiento-prueba 


Thomas, Windell, Bakke, Kreye, Kimose y Aposhyan (1985) reforzaron 
la respuesta de un grupo de palomas ante una tecla cruzada por una línea 
blanca vertical (un procedimiento que ya hemos visto en otros trabajos). En 
la prueba de generalización se presentaron el E+ y otros seis estímulos en 
los que se modificó la inclinación de la línea (de 15 a 90 grados). Esta prue- 
ba se aplicó un minuto, un día, y una semana después del entrenamiento. 
Los resultados mostraron que el gradiente se iba haciendo cada vez más 
plano según el tiempo entre el entrenamiento y la prueba era mayor. 


Podría afirmarse, por tanto, que el paso del tiempo aumenta la genera- 
lización, es decir, que los estímulos diferentes al E+ ejercen mayor control 
cuanto más lejana se encuentra la finalización del entrenamiento. 


6. INTERACCIONES EXCITATORIAS-INHIBITORIAS 


Cuando abordamos el efecto de la experiencia previa en la adquisición 
de nuevas discriminaciones introdujimos el concepto de cambio intradi- 
mensional e interdimensional, refiriéndonos a posibles diferencias entre 
los estímulos en cuanto al valor dentro del mismo rasgo (manteniéndose 
el resto constante) o de la existencia de diferentes rasgos, respectivamente. 
Pero estas diferencias también pueden distinguirse dentro de la misma 
discriminación. De esta forma, se consideraría a una discriminación como 
intradimensional si ambos estímulos discriminativos (tanto el positivo 
como el negativo) son idénticos en todo excepto en el valor de uno de sus 
rasgos. Por ejemplo, dos objetos del mismo tamaño, forma, posición, etc., 
que sólo se diferencian en el color. 


La adquisición de discriminaciones intradimensionales da lugar en 
las pruebas de generalización a dos interesantes fenómenos que vamos a 
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describir en este apartado: el desplazamiento del máximo y el efecto de 
tendencia central. 


6.1. Desplazamiento del Máximo 


Este fenómeno fue observado por primera vez por Hanson en 1959. En 
su experimento entrenó a tres grupos de palomas a discriminar entre dos 
sonidos que sólo se diferenciaban en su longitud de onda. Se distribuyeron 
los sujetos en cinco grupos, en todos se reforzó por responder ante el soni- 
do de 550 nm. (que funcionó como E+), sin embargo, el sonido en cuya 
presencia se extinguía la respuesta (el E-) varió en función de la condición. 
Tras el entrenamiento se comprobó la respuesta de los sujetos ante diferen- 
tes estímulos de prueba que iban de 480 a los 600 nm. 


La Tabla 3 muestra los diferentes valores de los estímulos utilizados en 
el entrenamiento y el valor aproximado del estímulo de prueba en el que 
se observó el máximo de respuestas (de media). Como se indica, los únicos 
sujetos que no recibieron un entrenamiento en discriminación fueron los 
pertenecientes al grupo 5, que sólo fueron expuestos al sonido de 550 nm. 
y no se les aplicó extinción en ningún momento. 


Tabla 3. Resumen de los resultados del estudio de Hanson (1959) 


Grupo E+ (nm) E- (nm) Máximo de respuestas ante el E (nm) de 
1 550 555 530 
2 550 560 538 
3 550 570 540 
4 550 590 542 
5 550 — 550 


Los resultados muestran como el único grupo que demostró el máximo 
de respuestas ante el E+ original fue aquel que no había sido sometido a 
extinción frente a otro sonido con diferente longitud de onda. En el resto de 
grupos se produce un alejamiento del valor en el que se observa el máximo 
de respuestas respecto al E+ original, en el sentido opuesto al valor del E-, 
y más amplio cuánto más cercano está el valor del E- al del E+. 
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A este fenómeno se le denomina Desplazamiento del Máximo y ha sido 
replicado en diferentes ocasiones (Honig y Stewart, 1993, por ejemplo), 
pero ¿cómo puede explicarse? Spence (1936, 1937) sugirió una interesante 
teoría. 


Según este autor, el entrenamiento en discriminación incide tanto en 
el discriminativo positivo como en el negativo (tanto en el EC excitatorio 
como en el inhibitorio) y, por tanto, ambos estímulos adquieren un control 
del comportamiento que puede generalizarse a otros estímulos semejan- 
tes. Cuando la discriminación ha sido intradimensional, las diferencias 
entre los estímulos se limitan al valor en una sola dimensión (dentro de 
un continuo), de manera que los estímulos de prueba mantienen parecido 
tanto con el E+ como con el E-. Spence destaca que todos los estímulos, los 
condicionados y los generalizados, tienen un efecto tanto excitatorio como 
inhibitorio, de manera que el efecto (la conducta provocada) podría enten- 
derse como la suma algebraica de ambas tendencias. 


ta 15 15 

10 10 10 

5 E 5 . 5 - 

0-7 0 y O - 
DO 10 0 O O 10 LO LO 10 DO 0 0 LO lO 10 LO 
RR 0 OO TT (NN (0 DI AS: A) RR 00 OoOm (oax 
Y Y Y 10 O 10 LO Y Y Y 10 lO 10 LO Y Y Y 10 lO 10 LO 


Figura 5. Datos hipotéticos de la interacción entre los gradientes excitatorios e inhibitorios 
en tres ejemplos: 510 nm. (E+) y 495 nm. (E-), izquierda y derecha; y 530 nm. (E+) y 485 
nm. (E-), centro. En gris los gradientes excitatorios e inhibitorios, en negro el gradiente neto. 


¿Cómo se calcularía entonces? Vamos a centramos en los datos 
representados en la gráfica de la izquierda de la Figura 5. Hay que tener en 
cuenta que: 


a) Se han tomado los valores hipotéticos de respuesta que se observa- 
rían si el E+ y el E- hubiesen adquirido su función de manera inde- 
pendiente, es decir, como si no se hubiese entrenado una discrimi- 
nación intradimensional. 
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b) El gradiente sólo está mostrando la fuerza excitatoria de cada 
estímulo de prueba presentado, pero para realizar la suma algebraica 
de tendencias es necesario contemplar también la fuerza inhibitoria. 
Para ello tomaremos como valor de referencia el máximo de res- 
puestas observado en cada gradiente (9 en el gradiente excitatorio 
y 5 en el inhibitorio). Si, por ejemplo, ante 530 nm. se observasen 4 
unidades de respuesta en el gradiente excitatorio, ésta sería su fuerza 
excitatoria en ese gradiente, mientras que su fuerza inhibitoria sería 
5 (9-4). 


La Tabla 4 muestra cómo se calcularían los valores del gradiente fruto 
de la interacción entre el E+ y el E- siguiendo estos principios. 


Tabla 4. Ejemplo del cálculo de la suma algebraica de tendencias 


G. Excitatorio (R) G. Inhibitorio (R) 
Suma Algebraica (R) 
500 8,3 0,7 1,3 3,7 (8,3 + 1,3) - (0,7 + 3,7) = 5,2 
505 8,7 0,3 1,7 3,3 (8,7 + 1,7) - (0,3 + 3,3) = 6,8 
510 9,0 0 2,0 3,0 (9 + 2) -(0+3)=8 
515 8,7 0,3 2,5 2,5 (8,7 + 2,5) - (0,3 + 2,5) = 8,4 
520 8,3 0,7 3,0 2,0 (8,3 + 3) - (0,7 + 2) = 8,6 


Los resultados hipotéticos mostrados en la Figura 5 nos aportan infor- 
mación sobre las características que presenta este fenómeno, algunas ya 
comentadas: 


— El desplazamiento del máximo se produce en el sentido del E- al E+. 
En nuestro ejemplo, si el E- es 495 nm. y el E+ 510 nm., de existir un 
desplazamiento del máximo tendría que ser ante un estímulo con un 
valor superior a 510 nm. 


— El desplazamiento del máximo es mayor cuanto más cercanos se 
encuentran los valores del E+ y el E-. Esto puede comprobarse com- 
parando el gradiente neto de la gráfica de la izquierda con el de la 
gráfica central, en la que apenas se observa desplazamiento. Esta 
característica se ha replicado con una amplia variedad de estímulos 
y especies: Hearst (1968) usando la inclinación de líneas con palo- 
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mas, Baron (1973) usando tonos con humanos, Ohinata (1978) con 
diferentes longitudes de ondas con peces, Cheng, Spetch y Johnson 
(1997) con localizaciones espaciales y palomas, por ejemplo. 


— Cuanto mayor es la discriminación mostrada por el individuo de los 
E+ y E- menor es el efecto de desplazamiento producido por la inte- 
racción entre ambos. La gráfica de la derecha tiene los valores del E+ 
y E- idénticos a la gráfica de la izquierda, sin embargo, no se observa 
desplazamiento del máximo. 


— Aunque el fenómeno se denomine «Desplazamiento del máximo», 
al menos teóricamente, también se produce un desplazamiento del 
«mínimo». Además, este valor dependería de las mismas variables 
que el valor en el que se observa el máximo de respuesta, excepto 
porque su desplazamiento se produciría en el sentido del E+ al E-. 


— Cuanto mayor es la interacción (más proximidad entre E+ y E- y 
/o gradientes más planos) menor es el valor absoluto de conducta 
observada. 


A pesar de la robustez del fenómeno, existen características tanto del 
entrenamiento como de la prueba o de los propios estímulos utilizados 
(ver Purtle, 1973, o Mackintosh, 1974) que determinan su aparición. Por 
ejemplo, se ha comprobado que el entrenamiento en discriminación «sin 
errores» no produce desplazamiento del máximo en la prueba de generali- 
zación (Terrace, 1964). Y, por otra parte, Crawford, Steele y Malone (1980) 
y Cheng y cols. (1997) encontraron que si la fase de evaluación es suficien- 
temente larga tampoco se observa este desplazamiento. 


Pero, probablemente, uno delas variables que modulan el Desplazamiento 
del Máximo que más interés ha despertado es la que vamos a describir 
en el siguiente apartado, el Efecto de Tendencia Central o de Nivel de 
Adaptación. 


6.2. Efecto de Tendencia Central 
Hasta ahora hemos visto pruebas de generalización en las que se presen- 


taban estímulos generalizados con valores tanto superiores como inferiores 
a los E+ y/o E- entrenados. Esta distribución más o menos simétrica de 
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los estímulos de prueba da lugar a curvas normales cuyo valor intermedio 
es el E+ o E- original, siempre que no se produzca un desplazamiento del 
máximo. Pero ¿qué aspecto presentaría el gradiente de generalización si los 
estímulos de prueba presentados no se distribuyeran de esa manera? 


Thomas y Jones (1962) respondieron a esta pregunta mediante un expe- 
rimento con humanos como sujetos. En su estudio se presentó una luz 
verde (525 nm.) durante un minuto y se advirtió a los participantes que la 
recordaran para poder identificarla después. En la fase de evaluación los 
sujetos fueron distribuidos en tres grupos que diferían en los estímulos de 
prueba presentados: todos por debajo del E+, todos por encima del E+, u 
ordenados de manera simétrica. Los sujetos tenían que determinar cuál de 
ellos era el mismo que el color mostrado al principio pulsando una tecla. 
Los resultados se resumen en la Tabla 5. 


Tabla 5. Resumen de los resultados por Thomas y Jones (1962) 


Grupos Estímulos de prueba (nm) Máximo de respuesta en 
Inferiores al E+ (525 nm) 485, 495, 505, 515, 525 515 nm 
Superiores al E+ (525 nm) 525, 535, 545, 555, 565 535 nm 

Simétrico 505, 515, 525, 535, 545 525 nm 


Es importante recordar que el E+ (el estímulo que se presentó al princi- 
pio y que se pedía identificar) era el mismo para los tres grupos y que todos 
tuvieron la oportunidad de señalarlo. Sin embargo, esto sólo se observó en 
el grupo con la distribución simétrica, en los dos grupos restantes el máxi- 
mo de respuestas se desplazó en el sentido del E+ original hacia el valor 
medio de los estímulos presentados. Este fenómeno es el conocido como 
Efecto de Tendencia Central y es uno de los mayores apoyos empíricos del 
enfoque relacional. Este enfoque defiende que la respuesta generalizada no 
se basaría en respuestas a las características físicas absolutas de los estí- 
mulos, sino a sus referencias relativas en función de los estímulos con los 
que tiene experiencia. 


¿Podría afectar la distribución de los estímulos de prueba a la inte- 
racción entre el E+ y el E- en una discriminación intradimensional? Para 
responder a esta pregunta Thomas y su equipo (Thomas, Mood, Morrison 
y Wiertelak, 1991) realizaron un experimento, también con humanos, en el 
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que consiguieron modificar el sentido del desplazamiento del máximo. En 
su estudio se utilizaron 11 intensidades de luz blanca clasificadas en orden 
creciente del 1 al 11. Se entrenó a 40 estudiantes universitarios a discrimi- 
nar entre dos de esas intensidades. En un grupo se reforzó responder ante 
la intensidad de grado 2 (E+) y se castigó la respuesta ante la de grado 4 
(E-). En el otro grupo el E+ fue el estímulo 4 y el E- el estímulo 2. La fase 
de prueba consistió en la exposición a seis series en las que se presentaban 
de manera aleatoria todos los estímulos, los once. 


En ambos grupos se encontró un desplazamiento del máximo respecto 
al valor del E+ entrenado muy cercano a 6, la media de los valores de los 
estímulos de prueba. Para el grupo en el que el E+ fue el grado 2 de inten- 
sidad el máximo de respuesta se observó ante el estímulo 5, mientras que 
para el grupo en el que el E+ fue 4 se desplazó al estímulo 7. Pero lo más 
destacable es que el desplazamiento en el primer grupo se produjo en el 
sentido del E+ (2) al E- (4). 


¿Invalidan estos resultados el fenómeno del desplazamiento del máxi- 
mo? No necesariamente. El Efecto de Tendencia Central, en primer lugar, 
es un fenómeno que hasta ahora sólo se ha comprobado con sujetos huma- 
nos, en el resto de especies (palomas y ratas, principalmente) se sigue repli- 
cando de manera consistente el Desplazamiento del Máximo. En segundo 
lugar, no todas las investigaciones con humanos obtienen resultados cohe- 
rentes con él. En algunos casos, como cuando se usan procedimientos de 
reconocimiento de caras, no se observan esta respuesta relacional (Spetch, 
Cheng y Clifford, 2004; por ejemplo). La naturaleza, alcance y característi- 
cas de este fenómeno es un debate abierto todavía. 


7. OTRAS TEORÍAS SOBRE LA GENERALIZACIÓN 


¿Por qué razón estímulos que nunca han participado en una contingen- 
cia de aprendizaje pueden ejercer control sobre la conducta de un individuo? 


Las primeras hipótesis explicativas a esta pregunta se fundamentaron 
en considerar la generalización como un proceso primario y no como el 
efecto o el subproducto de otro proceso diferente. En esta línea destacan 
las propuestas tanto de Pavlov (1927) como de Hull (1943), ya introducidas 
con anterioridad. 
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Pavlov basó su explicación en el concepto de irradiación, semejante al 
efecto de onda al tirar un objeto al agua. Según el autor, cada estímulo 
produce excitación en una zona concreta del córtex cerebral, de manera 
que estímulos parecidos pueden activar zonas físicamente adyacentes. Esto 
implicaba (y era coherente con lo observado en los experimentos) que la 
irradiación de la excitación se volvía más débil a medida que aumentaba la 
distancia al centro de excitación correspondiente al E+ original. 


Hull, por otra parte, defendió que el cerebro no percibía los estímulos 
como algo único, con un solo valor por dimensión, sino que cada rasgo era 
registrado con una horquilla de valores. Es decir, que cuando un estímulo 
adquiere control sobre cierta conducta, ese control no es exclusivo del valor 
de las dimensiones con las que se ha presentado, sino que es compartido 
por valores cercanos. De esta manera, al condicionarse regiones de valores 
y no valores concretos, cuántos más valores compartan el estímulo de prue- 
ba con las regiones condicionadas con el E+ original mayor será el control 
que ejercerá. 


A lo largo del capítulo hemos descrito otros desarrollos teóricos que, 
de alguna forma, complementan y amplían esta manera de concebir el 
fenómeno, como las teorías de Spence o el enfoque relacional de Thomas y 
Jones. Sin embargo, existen otras aproximaciones a este problema que no 
entienden la generalización como un proceso primario. En este apartado 
vamos a abordar dos de ellas: las que consideran la generalización como 
un fallo en la discriminación (la denominada hipótesis inversa y la teoría 
atencional), y las que critican el concepto de inhibición (la teoría de la res- 
puesta múltiple). 


7.1. Hipótesis inversa: Blough 


Siguiendo el planteamiento, ya comentado, de Lashley y Wade (1946), 
esta hipótesis mantiene que la generalización se debe a que los sujetos no 
pueden discriminar entre los estímulos de prueba a los que son expuestos. 
En otras palabras, la capacidad de los sujetos para discriminar ciertos estí- 
mulos determina si mostrarán o no generalización. 


Esta hipótesis fue puesta a prueba por Blough en 1972. En su experi- 
mento entrenó a palomas para que discriminasen una longitud de onda 
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concreta (color) como E+. El valor del estímulo discriminativo variaba en 
función del grupo e iba desde 480 nm. a 645 nm. Después, en la prueba de 
generalización, comprobó los gradientes que se formaban en cada grupo 
exponiéndoles a valores cercanos al E+ entrenado, tanto inferiores como 
superiores. Los resultados mostraron que el gradiente más pronunciado se 
observaba en los valores cercanos a 600 nm., mientras que se iban volvien- 
do más planos (menos discriminación, más generalización) según los estí- 
mulos de prueba del grupo se alejaban de 600 nm., tanto por debajo dentro 
del espectro como por arriba. 


La autora concluyó que la visión de las palomas es especialmente sen- 
sible a variaciones en ese punto del espectro, es decir, que son capaces 
de distinguir mejor ciertos colores que otros. Y que, por tanto, esa mejor 
capacidad para discriminar en un rango cercano a los 600 nm. minimizó 
la generalización. 


7.2. Teoría atencional: Shutherland y Mackintosh 


Esta teoría matiza la propuesta de Lashley y Wade, ya que considera 
que el fallo en la discriminación (responsable de que se produzca generali- 
zación) se debe a la falta de atención hacia el rasgo pertinente del estímulo 
discriminativo, del que correlaciona con el reforzamiento. 


La teoría atencional de la discriminación fue formulada por Sutherland 
y Mackintosh (1971). Estos autores distinguen dos procesos: 


1. El cerebro recibe y procesa la información sensorial a través de ana- 
lizadores específicos que representan cada dimensión del estímulo 
por separado (color, brillo, tamaño, etc.). Al inicio del entrenamien- 
to, antes del reforzamiento diferencial, la fuerza de cada analizador 
dependería de la saliencia de la dimensión. El reforzamiento afectaría 
a la fuerza de los analizadores activos, de manera que la dimensión 
más saliente, a la que estamos prestando atención, se condicionaría 
más que el resto. 


2. Se desarrolla un vínculo entre una respuesta específica y un analiza- 
dor. Por ejemplo, el reforzamiento establecería una unión entre ele- 
gir la tecla roja en lugar de la verde y el analizador correspondiente 
al color. 
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A lo largo del capítulo se han descrito tanto experimentos que apoyan 
esta teoría (Lawrence, 1963, Waller, 1973, y Honig, 1974), como otros que 
apuntan en la dirección contraria (Seraganian, 1979). 


7.3. Respuesta Múltiple: Staddon 


En un experimento de psicología la variable dependiente es la conduc- 
ta del sujeto, pero no cualquier conducta sino la que se ha definido como 
conducta objetivo para ese experimento concreto. Las características de las 
especies que suelen utilizarse para la investigación en laboratorio y las necesi- 
dades técnicas para el registro riguroso de esa conducta, entre otras variables, 
suelen delimitar los eventos que son objeto de observación y análisis por parte 
de los investigadores. En los estudios sobre generalización, por ejemplo, se 
refuerza diferencialmente una respuesta concreta (picar en una tecla, presio- 
nar una palanca, recorrer un corredor, etc.) y después se miden ciertos pará- 
metros de esa respuesta (frecuencia, latencia, intensidad, etc.) ante estímulos 
diferentes a los utilizados durante el entrenamiento. De esta manera, la ocu- 
rrencia de la respuesta objetivo ante estímulos parecidos al E+ se considera 
fruto de las propiedades excitatorias de los estímulos generalizados, mientras 
que su ausencia (o decremento) efecto de sus propiedades inhibitorias. Esto 
ha limitado los análisis teóricos a una sola conducta: la conducta objetivo. 


La teoría de Respuesta Múltiple de Staddon (1983) propone romper con 
esta concepción incluyendo dentro del análisis del fenómeno el resto de 
conductas que despliega el sujeto, además de la respuesta objetivo. Staddon 
diferencia entre dos categorías de conducta: las terminales y las de ínterin. 
Las primeras estarían controladas por la presencia del E+ y fortalecidas por 
la aparición del reforzador, y las segundas serían aquellas que aparecen en 
ausencia del E+ (o presencia del E-) y que son reforzadas por otro tipo de 
eventos diferentes al reforzador programado por el experimentador. 


Esto representa un enorme cambio respecto al resto de teorías que hemos 
visto en el capítulo, ya que se reemplaza el concepto de inhibición por el de 
competición. Las respuestas terminales quedarían bajo el control excitatorio 
de los E+ mientras que las conductas de ínterin estarían controladas por los 
E-. De esta manera, ambas tendencias excitatorias se generalizarían a todo 
el conjunto de estímulos de prueba presentados durante la evaluación, y el 
resultado de esta competencia formaría los diferentes gradientes. 
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RESUMEN 


La causa siempre antecede al efecto. Si el objeto de estudio de la Psicología 
es el comportamiento, la explicación de dicho objeto debe explicitar la causa 
del mismo. Ese evento causal puede ser la presencia de una persona, un 
fenómeno meteorológico, un sonido, una frase, sensaciones provenientes de 
nuestro cuerpo, nuestro propio comportamiento, etc. No obstante, su trata- 
miento respecto a la conducta que pretendemos explicar será de Estímulo, 
en cuanto a que funciona como un evento que produce una reacción. En este 
capítulo se ha revisado cómo éstos eventos adquieren su capacidad causal, en 
otras palabras, cómo el comportamiento cae bajo su control. A medida que un 
estímulo adquiere dicho control los individuos dejan de comportarse de esa 
misma manera en presencia de otros estímulos diferentes, dejan de generalizar 
y empiezan a discriminar. Este nivel de discriminación puede representarse 
mediante gradientes de generalización, que también nos informan sobre si 
ese control, respecto a la conducta a explicar, es excitatorio o inhibitorio. El 
control, además, puede ser simple (E+ y E-) o condicional, pero las variables 
de las que dependen son comunes y están relacionadas principalmente con lo 
diferente que sean los elementos que forman cada contingencia y con otros 
factores relacionados con la historia del sujeto y el tipo de entrenamiento. En 
definitiva, aunque en los estudios experimentales se intenta reducir la cantidad 
de variables relevantes al mínimo para poder establecer relaciones causales con 
cierta seguridad, el control que ejerce el entorno sobre nuestro comportamien- 
to depende de la interacción de una amplísima gama de factores, puede ser 
altamente complejo (ver Discriminaciones Condicionales de Segundo Orden) 
e incluso depender de la interacción de los estímulos de control, dando lugar 
a fenómenos aparentemente paradójicos como el Desplazamiento del Máximo 
o el Efecto de Tendencia Central.Conducta de elección. Se considera que un 
individuo ha tomado una decisión o ha elegido una opción cuando emite una 
respuesta en una situación 
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TÉRMINOS DESTACADOS 


Desplazamiento del máximo: efecto de interacción entre el control excitatorio 


e inhibitorio presente en cada estímulo de prueba cuando el entrenamiento 
de discriminación ha sido intradimensional. El resultado es que el máximo 
de respuestas no se observa en presencia del E+ original sino ante otro 
estímulo cuyo valor en la dimensión pertinente se aleja del E+ en dirección 
opuesta al E-. 


Discriminar y Generalizar: se considera que un individuo está discriminando 


entre dos eventos cuando su respuesta es diferente en función de cuál de 
los dos esté presente. Un estímulo demuestra un elevado control sobre una 
conducta cuándo sólo aparece en su presencia y no ante cualquier otro estí- 
mulo, aunque se parezca. Se considera entonces que el sujeto discrimina 
muy bien ese estímulo. Generalizar sería lo contrario, es decir, comportarse 
de la misma manera ante estímulos diferentes, lo que se consideraría un 
índice de un bajo control por el estímulo. 


Efecto de tendencia central: desplazamiento del máximo de respuestas res- 


pecto al E+ original como efecto de la distribución respecto a éste de los 
estímulos generalizados presentados. Se observa que el sujeto responde en 
mayor proporción ante un valor diferente al E+ original que se acerca al 
valor medio de los estímulos de prueba a los que se le expone. 


Gradiente de generalización: es la representación gráfica del control de un 


estímulo sobre determinada conducta. Se forma a partir de la respuesta del 
sujeto ante estímulos que difieren del original sólo en el valor de uno de sus 
rasgos, frecuentemente comprendiendo valores tanto superiores como infe- 
riores. La forma del gradiente aporta información tanto de la naturaleza del 
control, excitatorio (U invertida) o inhibitorio (U); como de su nivel, alta 
generalización (plano) o baja (acusado). 


CONTROL DE LA CONDUCTA POR ESTÍMULO 


ERRORES COMUNES 


Estímulo discriminativo vs. Discriminar / Generalizar: Discriminar o gene- 
ralizar son dos formas de describir el grado en el que ciertos estímulos 
antecedentes ejercen control sobre determinadas conductas. Un evento 
ejercerá mayor control sobre una conducta cuanta menos generalización 
se observe, es decir, si esa conducta sólo aparece ante ese estímulo y no 
ante otros (aunque se parezcan mucho) el sujeto está demostrando que 
una elevada conducta discriminativa. No obstante, a todos los estímulos 
que ejercen cierto control directo (no condicional) sobre alguna operante 
se les denomina discriminativos (Ed), independientemente de que ese con- 
trol sea escaso o muy alto. Por tanto, los estímulos discriminativos pueden 
discriminarse de la misma forma que pueden generalizarse, en función de 
multitud de variables comentadas en este capítulo. 


¿Qué muestran los gradientes de generalización?: Los gradientes de gene- 
ralización se forman a partir de la respuesta observada ante estímulos 
de prueba que guardan un parecido decreciente con el E+ o el E- en una 
dimensión (manteniéndose el resto de rasgos constantes). La forma de este 
gradiente (plano o puntiagudo) nos informa sobre el grado de control que 
ejerce el E+ o el E- sobre determinada conducta. Por tanto, nos permite 
determinar tanto el nivel de discriminación como de generalización. 


Estímulo Condicional vs. Estímulo Condicionado: Se denominan Estímulos 
CondicionaDOS a aquellos eventos que han adquirido alguna propiedad 
elicitadora por su emparejamiento con otro estímulo que ya poseía esa 
característica, ya sea un Estímulo Incondicionado (El) u otro Estimulo 
Condicionado (EC). Los estímulos CondicionaLES, sin embargo, son even- 
tos cuyo control sobre la conducta es operante, no Respondiente (Clásico 
o Pavloviano). Son aquellos eventos que modifican la función positiva o 
negativa de los estímulos discriminativos, es decir, los eventos que añaden 
un término más a la contingencia operante mínima de tres términos, con- 
virtiéndola en condicional. 
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CONOCIMIENTOS PREVIOS 


Ed+ y Ed-. Son estímulos discriminativos (Ed) aquellos que han adquirido 
cierto control sobre la emisión de determinada conducta debido a que su 
presencia ha correlacionado con su refuerzo (Ed+) o con su castigo/extin- 
ción (Ed-). 


Elicitar y Emitir. La conducta que es provocada de una manera refleja por un 
evento antecedente se considera elicitada, ya sea de manera innata (RI) o 
aprendida (RC). La conducta emitida (operante o instrumental) depende de 
las consecuencias que le han seguido en el pasado. 


Ensayos discretos y Operante libre. Se considera que un estudio está utili- 
zando ensayos discretos cuando sólo se permite que la respuesta aparezca 
una vez por ensayo. De esta manera el experimentador puede controlar el 
momento y la frecuencia de emisión de la operante. El uso de un método 
de operante libre implica que el sujeto pueda repetir la respuesta sin res- 
tricciones a lo largo de la sesión, sin que el experimentador intervenga al 
finalizar cada ensayo. 


Filogenia y Ontogenia. La filogénesis del comportamiento se refiere a los cam- 
bios producidos en el repertorio conductual innato de una especie debido 
a procesos de selección natural. La ontogénesis del comportamiento, sin 
embargo, alude a los cambios en el repertorio conductual de un individuo 
generados por su experiencia. 


ISI e ITI. Se define como intervalo entre estímulos (inter stimulus interval, ISI) 
al tiempo que transcurre entre la aparición de un determinado estímulo 
(frecuentemente un EC) y la aparición de otro (frecuentemente un El). El 
intervalo entre ensayos (inter trial interval, ITI) es el tiempo que transcurre 
desde la finalización de un ensayo (al cerrarse el comedero, por ejemplo) y 
el comienzo del siguiente. Suele ser más largo que el ISI. 


Topografía y Función. La topografía de una respuesta es el conjunto de sus 
propiedades físicas, tales como la velocidad con la que se emite, dirección, 
músculos que intervienen, etc. Su función depende del papel que juega en 
relación con los eventos que le anteceden y/o le siguen. 
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OBJETIVOS 


e Distinguir la estructura y los efectos sobre la conducta que muestran los 
diferentes procedimientos de condicionamiento en los que la estimulación 
aversiva está involucrada. 


e Conocer los tipos de procedimientos y las variables de las que depende la 
eficacia del entrenamiento de escape/evitación y de castigo. 


e Valorar el efecto del uso del castigo, su eficacia para suprimir un comporta- 
miento y las alternativas disponibles. 


+ Comprender cómo afecta a nuestras elecciones la presencia de estimulación 
aversiva y su interacción con otras variables (como la demora). 


348 


El miedo y el dolor existen, y su presencia afecta a nuestra manera de 
actuar. Y sólo esto debería de ser una razón suficiente para motivar su es- 
tudio desde un nivel de análisis psicológico. 


La forma en la que un individuo reacciona ante un peligro, como un 
evento nocivo o un predador, es determinante para que continúe vivo. En el 
estudio de la conducta defensiva se ha abordado tradicionalmente este con- 
cepto (el de reacción defensiva) desde dos perspectivas diferentes. Mientras 
que Pavlov (1927) lo utilizó para referirse a las reacciones que los animales 
demostraban ante ciertos estímulos dañinos, como el parpadeo del ojo ante 
la presencia de elementos extraños (reflejo parpebral) o el vómito ante un 
alimento tóxico. Cannon (1929) consideraba como principales ejemplos de 
conductas defensivas la lucha o la huida, destacando el papel de la respues- 
ta cardiovascular. 


De hecho, son éstas, las reacciones fisiológicas, la manera más gene- 
ralizada de prepararse ante una amenaza. Aumentar la tasa cardíaca o la 
respiración es una eficaz estrategia para proveer de recursos energéticos 
al organismo (facilitando la respuesta de agresión o huida), reducir la tasa 
puede hacer al sujeto más difícil de detectar por el predador (contribuyen- 
do al efecto de la inmovilización). 


Entre las respuestas que pueden ser inducidas parcial o totalmente por 
la estimulación aversiva, la huida, la inmovilización y la agresión son las 
más frecuentes. No obstante, las presiones de supervivencia son muy dife- 
rentes entre las distintas especies por lo que es razonable pensar que cada 
especie haya desarrollado una serie de respuestas específicas que se ponen 
en marcha ante las amenazas. Las ratas, por ejemplo, suelen responder ante 
las amenazas huyendo o permaneciendo paralizadas, pero en otras especies 
se han observado reacciones como la tigmotaxia (pegarse a las paredes, co- 
mún en conejos, por ejemplo), acercarse a zonas oscuras o el enterramiento 
(muy frecuente en el hámster). Cuál de estos comportamientos (general o 
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Ejemplo 


El color negro de la 
ropa de nuestra profeso- 
ra de piano puede corre- 
lacionar con su manera 
de reaccionar ante nues- 
tros errores: un golpeci- 
to con la batuta en los 
dedos. Que nuestra tasa 
cardíaca se eleve ante 
la mera presencia del 
color negro (como de si 
una amenaza se tratase) 
puede ser adaptativo, 
pero sólo para nosotros 
(ni todas las profesoras 
van de negro ni todas 


específico) aparece en presencia del estímulo 
aversivo depende tanto de variables del propio 
estímulo (como la duración o la intensidad) 
como de la especie, de la historia del individuo 
pero, sobre todo, del contexto en el que ocurre. 
Se ha comprobado que si la situación en la que 
se presenta la amenaza dispone de alguna sali- 
da la reacción más probable es la huida, mien- 
tras que si no la tiene es la parálisis (Blanchard, 
1997). El enterramiento no aparece si no hay 
arena, la agresión tampoco si no hay oponente, 
y la parálisis es menos probable si el sujeto no 
se encuentra cerca de una pared. 


La variedad, por tanto, de estímulos aver- 
sivos es amplia pero, desde un punto de vista 


usan ese método edu- 
cativo) y ni en todas las 
ocasiones (no todos los 
que visten de negro son 
profesores) ni durante 
toda nuestra vida (algu- 
na vez abandonaremos 
sus clases). 


funcional, podemos definirlos como aquellos 
que elicitan algún reflejo defensivo como los 
descritos anteriormente (huida, parálisis, agre- 
sión, vómito, rechazo, alejamiento, retirada, 
etc.). Pero esta no es la única manera en la que 
la estimulación aversiva afecta a nuestra con- 
ducta. Si cruzamos un paso de cebra cuando 
el semáforo para peatones está en rojo y un 
automóvil pasa de improvisto cerca de nosotros haciendo sonar su claxon 
no sólo nos paralizamos (respuesta refleja) sino que las posibilidades de que 
volvamos a cruzar en rojo (respuesta operante) en el futuro se reducen. En 
los ambientes más salvajes (menos civilizados) la probabilidad de aparición 
de estímulos aversivos es mayor aún y, por tanto, es altamente adaptativo 
que el sujeto disponga de mecanismos de aprendizaje que reduzcan su ex- 
posición a éstos. Desde un punto de vista operante (y, de nuevo, funcional), 
consideraremos como estímulos aversivos aquellos que los organismos 
evitan o de los que escapan. 


Los sonidos intensos, el olor a descomposición, la luz brillante, el daño 
físico, son ejemplos de eventos que funcionan como estímulos aversivos 
de manera innata (en nuestra especie, al menos). En una contingencia 
clásica se definirían como estímulos incondicionados aversivos (El-), en 
una contingencia operante como consecuencias aversivas primarias. Tanto 
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reaccionar alejándose de ellos como evitar (o escapar de) las situaciones en 
las que aparecen tienen un alto valor adaptativo. Pero no todas las presio- 
nes de supervivencia están tan generalizadas a lo largo del tiempo y de los 
diferentes contextos. Puede que cierto evento correlacione con la presencia 
de un El- en según qué ambientes pero no en otros, o durante un tiempo 
determinado y no en todas las ocasiones. 


Este tipo de eventos se consideran estímulos aversivos secundarios, es- 
tímulos condicionados excitatorios aversivos en las contingencias pavlovia- 
nas, y consecuencias aversivas secundarias en las contingencias operantes. 
Son estímulos que han adquirido su función a lo largo de la ontogenia del 
individuo a través de mecanismos de condicionamiento clásico, y su efecto 
está sujeto a otros fenómenos de aprendizaje como la extinción o el con- 
tra-condicionamiento, por ejemplo. 


En este capítulo vamos a centrarnos en el efecto de la estimulación 
aversiva (primaria o secundaria) en la conducta operante, por lo que abor- 
daremos los procedimientos de reforzamiento negativo y castigo. Además, 
se reflexionará sobre algunos aspectos relacionados con la supresión de la 
conducta operante, como ciertos efectos paradójicos o métodos alternati- 
vos al castigo, así como en la influencia de la estimulación aversiva en la 
conducta de elección. No obstante, antes se hace necesario repasar algunos 
conceptos básicos sobre el condicionamiento operante y su relación con la 
estimulación aversiva. 


1. ESTIMULACIÓN AVERSIVA EN EL CONDICIONAMIENTO 
OPERANTE 


1.1. Procedimientos de condicionamiento operante 


Como ya hemos visto, los procedimientos de condicionamiento operante 
(o instrumental) pueden clasificarse en función de diferentes propiedades. 
La primera, y más evidente, propiedad a tener en cuenta es su efecto sobre 
la conducta. Cuando el procedimiento tiene como resultado un aumento 
de la probabilidad de emisión de la conducta se denomina reforzamiento, 
mientras que cuando reduce su probabilidad se denomina castigo. 


Esta primera clasificación puede aumentarse atendiendo a propiedades 
de tipo estructural, como son la relación de contingencia entre la respues- 
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ta y la consecuencia, y la naturaleza de dicha consecuencia (apetitiva o 
aversiva). Cuando la correlación (contingencia) respuesta-consecuencia es 
directa se le añade el término «positivo» mientras que cuando es inversa se 
le añade «negativo». Recordamos, de esta forma, los cuatro tipos de proce- 
dimientos: 


Ejemplo 


— Entrenamiento de recompensa (o Reforzamiento positivo): la res- 


puesta y la consecuencia mantienen una contingencia positiva, y la 
naturaleza de la consecuencia es positiva (por ejemplo: El apetitivo, 
EC excitatorio apetitivo o EC inhibitorio aversivo). Es decir, la con- 
secuencia es la aparición de un reforzador tras la emisión de la res- 
puesta. Tiene como efecto un aumento de la probabilidad de emisión 
de la conducta. 


Entrenamiento de evitación/escape (o Reforzamiento negativo): con- 
tingencia respuesta-consecuencia negativa y naturaleza negativa de 
la consecuencia (por ejemplo: El aversivo, EC excitatorio aversivo 
o EC inhibitorio apetitivo). Por tanto, la consecuencia es la no apa- 
rición o retirada de una consecuencia aversiva tras la emisión de la 
respuesta. También tiene como efecto un aumento de la probabili- 
dad de emisión de la conducta. 


Castigo (o Castigo positivo): contingencia respuesta-consecuencia 
positiva y naturaleza negativa de la consecuencia. Es decir, la con- 
secuencia es la presentación de una consecuencia aversiva tras la 
emisión de la respuesta. Reduce la probabilidad de emisión de la 
Operante. 


— Entrenamiento de omisión (o Castigo nega- 
tivo): contingencia respuesta-consecuencia 


Pedir perdón mien- negativa y naturaleza positiva de la conse- 
tras nos están repren- 


diendo algún compor- 
tamiento anterior (y 


cuencia. Es decir, la consecuencia es la no 
aparición o retirada de un reforzador tras la 


terminar con la repri- 
menda) o salir a fumar 
cuando el trabajo nos 
agobia (o aburre), son 
ejemplos en los que se da 
un alto componente de 
contingencia de escape. 
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emisión de la operante. Reduce su probabi- 
lidad de emisión en el futuro. 


Esta distinción entre los diferentes proce- 
dimientos de condicionamiento operante no 
siempre es tan sencilla en nuestro ambiente na- 
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tural. Si, por ejemplo, en una calurosa tarde de julio encendemos el aparato 
de aire acondicionado, ¿estaríamos ante un caso de reforzamiento negativo 
(el sujeto escapa del calor como estímulo aversivo) o positivo (reforzado 
por la aparición del frío)? El calor desaparece con el frío, un gesto de en- 
fado con una sonrisa, la privación con la saciedad, etc. Hineline (1984), 
reflexionando sobre esta cuestión, defendió que no existía tal simetría entre 
el reforzamiento positivo y el negativo. Cuando un evento requiere de la 
emisión de una respuesta para su desaparición, ésta debe producirse en su 
presencia. Sin embargo, las respuestas reforzadas positivamente tienen que 
emitirse necesariamente antes de la aparición del refuerzo. Catania (1973) 
tampoco considera tan difícil distinguir estos procedimientos en el labora- 
torio: si la respuesta tiene como consecuencia la retirada (o aplazamiento) 
de un estímulo y la tasa de respuesta aumenta, estamos ante un caso de 
reforzamiento negativo. 


Como el objetivo de este capítulo es abordar los efectos de la estimula- 
ción aversiva en la conducta operante y las variables de las que depende, en 
el siguiente apartado nos centraremos en la distinción (y en la relación que 
mantienen) entre el reforzamiento negativo y el castigo positivo. 


1.2. Castigo, escape y evitación 


Antes de describir los procedimientos más relevantes del reforzamiento 
negativo puede ser de utilidad recordar la distinción entre sus dos varian- 
tes: el entrenamiento de evitación y el de escape. 


En un entrenamiento de escape la consecuencia aversiva está presente 
y no desaparece hasta la emisión de la conducta operante. La operante, por 
tanto, es reforzada por la supresión del evento aversivo que estaba en curso. 


Las preparaciones experimentales (de laboratorio) de escape incluyen 
tanto respuestas locomotrices mediante las cuales el sujeto se desplaza 
fuera del lugar donde se halla el estímulo aversivo, como respuestas mani- 
pulativas que interrumpen la emisión del estímulo. Generalmente la técnica 
de desplazamiento consiste en pasar de un compartimento a otro, en una 
caja doble (o lanzadera), o correr a lo largo de un corredor entre una caja 
de salida y otra de meta. En el caso de la caja doble se electrifica el suelo 
de uno de los compartimentos, y en el caso del laberinto recto, la salida y el 
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corredor, pero no la meta. Las respuestas de escape en la técnica manipu- 
lativa suelen consistir en accionar una palanca o picar una tecla. 


Figura 1. Dibujo esquemático de una clásica caja lanzadera o caja doble. 


En un entrenamiento de evitación, sin embargo, el sujeto es expuesto 
a la presentación periódica de alguna consecuencia aversiva y la emisión 
de la operante impide o retrasa su aparición. A diferencia de la anterior, la 
operante no se emite mientras el estímulo aversivo se encuentra presente 
sino antes de que haya aparecido. Llamamos por teléfono para avisar de 
que llegaremos tarde a una cita o lavábamos los platos antes de que llegue 
nuestro compañero de piso para evitar o reducir la consiguiente reprimen- 
da, estas conductas están muy influenciadas por contingencias anteriores 
de evitación. Existen diferentes variantes del procedimiento de evitación, 
en el siguiente apartado (punto 2, Conducta de evitación) describiremos las 
más relevantes. 


Respecto al castigo, todos los procedimientos tienen el efecto de reducir 
la conducta a la que se aplica. Sin embargo, en el entrenamiento de omi- 
sión la conducta del sujeto no mantiene ninguna relación con la aparición 
de estimulación aversiva. Por esta razón, siempre que se aluda al castigo 
en este capítulo es para referirse al castigo positivo, es decir, a los procedi- 
mientos en los que la emisión de la conducta vaya seguida de la aparición 
de un estímulo aversivo. 


Aunque parezca evidente, para poder aplicar un procedimiento de cas- 
tigo a una conducta es necesario que ésta se emita con cierto grado de pro- 
babilidad, lo que determina su estudio en el laboratorio. La mayoría de las 
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preparaciones experimentales empiezan con 
una fase previa en la que se refuerza la emisión 
de alguna conducta (presionar una palanca o Si intentamos arre- 
picar una tecla, por ejemplo) para poder apli- elar una tubería a Y 
. j anegamos la cocina (con 

carle castigo a la misma respuesta (a la vez que : É 
f Ñ f lor. El a la merecida reprimen- 
reforzamiento) en una fase posterior. grado 
en el que se ve suprimida dicha respuesta se las posibilidades de que 
considera un índice de la efectividad del casti- volvamos a intentar algo 
go. Como estímulos aversivos suelen utilizarse Parecido se reducen. Si 


ruidos fuertes o descargas, aunque la variedad HI 
j enchufe y le regañamos 
es muy amplia. 


puede que consigamos 
Como hemos visto, los procedimientos de que no vuelva a hacerlo. 
reforzamiento negativo y de castigo presentan 
ciertas características en común pero también importantes diferencias. Me- 
diante el reforzamiento negativo aumentamos la probabilidad de la operan- 
te mientras que con el castigo la reducimos. Sin embargo, en ambos casos 
la conducta del sujeto es moldelada para reducir al máximo su exposición 
a la estimulación aversiva, o lo que es lo mismo, mediante el aumento de 
los periodos de seguridad. Es por esta razón que en ciertos escritos se sue- 
le denominar «evitación activa» a la conducta reforzada negativamente y 
«evitación pasiva» a la castigada positivamente. Aquí no haremos uso de 
estos términos. 


Ejemplo 


1.3. Procedimientos de condicionamiento operante 
y estados emocionales 


A lo largo de todo el manual hemos descrito fenómenos de aprendizaje 
distinguiéndolos como fruto del condicionamiento clásico (pavloviano) o 
del operante (instrumental). Sin embargo, el efecto elicitador de un EC (o 
un El) no desaparece cuando está funcionando como consecuencia en una 
contingencia operante. 


Por ejemplo, podemos reforzar una respuesta haciendo contingente su 
emisión con la aparición de un El apetitivo (o de un EC excitatorio ape- 
titivo). Si este procedimiento aumenta las probabilidades de emisión de 
dicha conducta podemos catalogarlo como un reforzamiento positivo (o 
entrenamiento de recompensa), y considerar que, por tanto, el El (o el EC) 
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ha funcionado como un reforzador. Pero la función que ha desempeñado 
el El en este procedimiento no reemplaza ni su capacidad como elicitador 
de respuestas incondicionadas ni su capacidad para condicionar otros 
eventos con los que mantenga una relación de contingencia y contigúidad. 
Si ante la orden «siéntate» reforzamos con comida la conducta de sentarse 
de nuestra mascota estamos convirtiendo la orden en un discriminativo po- 
sitivo para sentarse pero, además, el uso de la comida como consecuencia 
provocará la salivación del sujeto y convertirá a los eventos antecedentes (la 
propia respuesta, la orden, y hasta a la persona que la emite) en estímulos 
condicionados excitatorios apetitivos. En definitiva, como observadores o 
analistas podemos centrar nuestra atención en la función que desempe- 
ñan los eventos en el procedimiento de reforzamiento positivo, pero esos 
mismos eventos pueden (y de hecho lo hacen) estar cumpliendo otras fun- 
ciones dentro de otro tipo de contingencias, como un condicionamiento 
clásico excitatorio apetitivo. 


Tabla 1. Comparación de la función de ciertos eventos dentro de una 
contingencia pavloviana y dentro de una contingencia operante. 
Ejemplo con perro 


Presencia del La orden El perro 7 Í 
Evento de 2 Comida Perro saliva 
entrenador «siéntate» se sienta 
c+ E: pe el ES ES RI 
(exterocep.) (exterocep.) (propiocep.) (exterocep.) 
C. O. Ed Ed R Er 


Pero, además de la RI específica (como la salivación provocada por la 
comida), los estímulos elicitadores provocan en los sujetos estados emo- 
cionales, estados que pueden asociarse al resto de los eventos antecedentes 
(convirtiéndolos en ECs). Por regla general, suele considerarse que los El 
apetitivos provocan alegría, mientras que los aversivos generan miedo. El 
efecto emocional de los ECs excitatorios apetitivos suele etiquetarse como 
«esperanza», el de los excitatorios aversivos como «ansiedad», los inhibi- 
torios apetitivos generan estados etiquetados como «tristeza» y los inhi- 
bitorios aversivos «alivio». Esta es la razón por la que la presencia de un 
entrenador que suele utilizar procedimientos de refuerzo positivo no sólo 
funciona como discriminativo para según qué conductas sino que además 
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elicita un estado emocional parecido a la alegría («esperanza» o «ilusión»). 
En otras palabras, los eventos presentes durante el refuerzo, incluidos los 
estímulos propioceptivos generados por nuestro comportamiento (que tam- 
bién se convierten en ECs), nos hacen sentir bien, y por las mismas razones, 
no nos «gustan» los eventos presentes durante el castigo. 


Tabla 2. Comparación de la función de ciertos eventos dentro de una 
contingencia pavloviana y dentro de una contingencia operante. 
Ejemplo con humanos 


Presencia del El niño dice una El progenitor El niño se 
Evento A A 
progenitor palabrota reprende al niño sobresalta 
C. C. ps EE E RI 
(exterocep.) (propiocep.) (exterocep.) 
C. O. EA R Er- 


Respecto a los procedimientos en los que vamos a centrarnos en este 
capítulo, podríamos concluir que tanto los discriminativos positivos (pa- 
ra respuestas reforzadas negativamente) como las conductas de evitación 
o escape generan estados de alivio en los sujetos, mientras que tanto los 
estímulos delta (para respuestas castigadas) como las propias conductas 
castigadas producen estados de ansiedad. Pero, aún más importante, la 
presencia de un estímulo incondicionado aversivo provoca miedo, y esta 
poderosa reacción es algo que hay que tener siempre en cuenta para prede- 
cir el efecto del procedimiento que estamos usando. 


El castigo (sobre todo el positivo) tiene efectos emocionales que inhi- 
ben la conducta apetitiva y cualquier operante en general. En un capítulo 
anterior hemos visto como el efecto paralizante producido por un estímu- 
lo excitatorio aversivo suele requerir de una medición indirecta para ser 
identificado (a través de la razón de supresión). Estos efectos emocionales, 
sin embargo, no lo son todo en el castigo, ya que, si así fuera, la estimu- 
lación aversiva tendría los mismos efectos fuera o no contingente con las 
respuestas del sujeto. Se ha demostrado experimentalmente (Church, 1969) 
que, aunque la estimulación aversiva independiente de la respuesta pueda 
producir cierta supresión de la conducta instrumental, se da una supresión 
significativamente mayor de la conducta si la estimulación aversiva se pro- 
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duce por la ejecución de la respuesta instrumental. Se concluye, por tanto, 
que la estimulación aversiva producida por la respuesta es mucho más efi- 
caz para suprimir la conducta que la estimulación aversiva independiente 
de la respuesta. 


Existen diferentes teorías que intentan explicar el efecto en la conducta 
de los procedimientos de castigo (algunas de ellas las veremos más ade- 
lante), pero en lo que concierne a este apartado es de especial relevancia 
la Teoría de la respuesta emocional condicionada. Esta teoría fue pro- 
puesta por Estes (1944) y se basa en las observaciones de Estes y Skinner 
(1941) del procedimiento de supresión condicionada. La idea básica es que 
un EC excitatorio aversivo provoca ciertas respuestas emocionales (como 
la paralización) por el hecho de estar emparejadas con una descarga. Esas 
respuestas emocionales condicionadas son incompatibles con la respuesta 
de presión de palanca (la rata no puede quedarse paralizada y al mismo 
tiempo presionar la palanca). Por tanto, la tasa de presión de la palanca se 
suprime durante las presentaciones del EC. No obstante, a diferencia del 
experimento de Supresión Condicionada, los procedimientos de castigo no 
suelen incluir un EC explícito que señale la administración de la descarga. 
Estes sugirió que cumplen esta función los diversos estímulos (visuales, 
táctiles y propioceptivos) que el sujeto experimenta antes de dar la respues- 
ta castigada, como la visión de la palanca y/o de los discriminativos (luces, 
sonidos, etc.), la orientación del cuerpo o la postura antes de responder, etc. 


2. CONDUCTA DE EVITACIÓN 


Hasta ahora hemos atendido los procedimientos de reforzamiento nega- 
tivo abordando tanto la conducta de escape como la de evitación. No obstan- 
te, ésta última ha recibido mayor atención por parte de los investigadores, 
principalmente por dos razones: primero por el reto teórico que supone 
explicar la aparición y mantenimiento de una conducta que tiene como 
consecuencia la ausencia de un estímulo aversivo; segundo, porque ambos 
comportamientos pueden simplemente representar extremos de un continuo 
que sería el reforzamiento negativo (Hineline, 1977; Pierce y Cheney, 2008). 


Aunque los primeros estudios sobre evitación se realizaron aproxima- 
damente hace 100 años, se necesitaron dos décadas más para re-evaluar el 
fenómeno y analizarlo en un marco que no fuera exclusivo del condiciona- 


358 


CONTROL AVERSIVO EN EL CONDICIONAMIENTO OPERANTE 


miento clásico. Siguiendo la línea de los tra- 
bajos de Pavlov, Bechterev (1913) llevó a cabo 
un estudio con humanos en el que pretendían 
asociar un estímulo neutro (futuro EC) a una 
descarga (El). Los sujetos inicialmente levan- 
taban de forma refleja el dedo (RI) de la placa 
metálica al recibir la descarga, pero después de 
pocos ensayos empezaron a hacerlo (RC) tras la 
aparición del estímulo designado como EC, no 
recibiendo la descarga programada. El experi- 
mento se consideró como un ejemplo de apren- 
dizaje asociativo hasta que algunos autores 
(Schlosberg, 1934; Brogden, Lipman y Culler, 
1938) exploraron una característica del estudio 
de Bechterev que lo diferenciaba radicalmente 


Ejemplo 


Podemos encontrar 
ejemplos de compor- 
tamientos reforzados 
principalmente a través 
de este tipo de proce- 
dimientos cuando por 
ejemplo buscamos una 
gasolinera si en nuestro 
coche se activa el aviso 
de «depósito en reserva», 
o cuando cambiamos de 
tema de conversación si 
nuestro interlocutor ha- 
ce algún gesto asociado 
en el pasado con una 


de las preparaciones habituales de condicio- pelea/discusión. 


namiento clásico: que el El no aparezca si se 

presenta la RC. Los procedimientos usados en estos estudios consistían en 
replicaciones del experimento original de Bechterev pero con animales no 
humanos y, lo más importante, añadiendo un grupo control en el que el El 
se presentaba en todos los ensayos independientemente de la respuesta del 
sujeto. Los resultados mostraron que tanto la velocidad de adquisición como 
el nivel de ejecución de la supuesta RC eran mucho mayores en el grupo ex- 
perimental (en el que se podía evitar la descarga) que en el control. Esto de- 
mostró que estaban ante dos tipos de conductas diferentes y marcó el inicio 
de una línea de investigación (en el marco del condicionamiento operante) 
cuyos principales métodos y hallazgos se describirán a continuación. 


2.1. Procedimientos de evitación 


2.1.1. Evitación discriminada 


La evitación discriminada (o señalada) recibe este nombre debido a la 
existencia de claves que señalan el acontecimiento aversivo, frecuentemente 
una descarga. El primer punto a tener en cuenta sobre la técnica de evitación 
señalada es que utiliza ensayos discretos (con el consiguiente tiempo experi- 
mental e intervalo entre ensayos). Cada ensayo se inicia con la presentación 
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de un evento neutro (que suele ser un tono o una luz) al que se le denomina 
«señal», aunque siguiendo una terminología operante la señal terminará 
funcionando como un discriminativo positivo. Los hechos que tienen lugar 
después dependen de lo que haga el sujeto, existiendo dos posibilidades: 


A) Si el sujeto no emite la respuesta requerida para la evitación durante 
el intervalo entre la señal y el El aversivo, se presenta el El programa- 
do y se mantiene hasta que la emite, después de lo cual tanto la señal 
como el El cesan. En este caso, la respuesta instrumental se conside- 
raría una forma de escape, ya que suprime la descarga eléctrica en 
curso. Y, por tanto, este tipo de ensayo se denomina ensayo de escape. 


B) Si el sujeto emite la respuesta requerida, antes de que se presente el 
El aversivo, la señal cesa y se omite el El en ese ensayo. Este sí se 
consideraría un ensayo de evitación con éxito. 


Durante los primeros estadios del entrenamiento, la mayoría de los 
ensayos son ensayos de escape; mientras que con el desarrollo del entrena- 
miento empiezan a predominar los ensayos de evitación, y, por tanto, las 
respuestas de evitación. 


Vemos, pues, que en un procedimiento de evitación discriminada, se ba- 
rajan tres elementos: la señal de aviso, la respuesta operante y la consecuen- 
cia aversiva. Es interesante estudiar las relaciones básicas de contingencia 
que se producen entre ellos, así como la interdependencia de tales relaciones: 


a) Contingencia Respuesta-Señal de aviso. La emisión de la respuesta 
operante conlleva la desaparición de la señal de aviso, lo que convier- 
te su relación en una contingencia de escape. 


b) Contingencia Respuesta-Consecuencia. Aunque inicialmente se produ- 
ce una contingencia de escape (dar la respuesta implica hacer desapa- 
recer la descarga que está produciéndose), cuando el entrenamiento 
está más avanzado la contingencia será de evitación (realizar a tiempo 
la conducta apropiada impide la llegada de la consecuencia aversiva). 


c) Contingencia Señal de aviso-Consecuencia. La contingencia entre 
estos dos eventos ambientales también varía dependiendo (como 
hemos visto anteriormente) de la respuesta del sujeto. En los prime- 
ros momentos del procedimiento, antes de que el sujeto adquiera la 
respuesta de evitación, la señal de aviso y la consecuencia aversiva 
ocurren conjuntamente. Sin embargo, cuando el sujeto consigue evi- 
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tar con su respuesta la descarga programada, hace que se rompa esta 
contingencia, de manera que ahora aparece únicamente la señal de 
aviso, pero no la consecuencia. Esto implica que durante los ensayos 
de escape se produce un condicionamiento excitatorio aversivo entre 
la señal y la descarga, condicionamiento que se somete a extinción 
en los ensayos de evitación, en los que la señal adquiere la función de 
discriminativo positivo para la conducta de evitación. 


Un efecto muy robusto que se ha encontrado en la adquisición de la 
conducta de evitación discriminada en situaciones de laboratorio es la ele- 
vada cantidad de ensayos que requiere. Mientras que las palomas y ratas 
adquieren la conducta objetivo (picar en una tecla o presionar una palanca, 
por ejemplo) en muy pocos ensayos cuando se aplica un procedimiento de 
reforzamiento positivo, adquirir la misma respuesta como evitación de una 
descarga es sensiblemente más lento (Solomon y Brush, 1956). Algunos 
autores (Meyer, Cho y Wessemann, 1960, por ejemplo) han explicado esta 
diferencia como el resultado de la interferencia de la conducta elicitada por 
la señal (la parálisis) en la emisión de la operante requerida. Sin embargo, 
otros autores apuntan a que puede deberse a la especificidad de la conducta 
de evitación/escape en función de la especie. Mientras que Macphail (1968) 
encontró que las palomas requerían aproximadamente de 120 ensayos pa- 
ra adquirir como respuesta de evitación de una descarga la carrera por un 
corredor recto, Baum (1965) observó que las ratas sólo necesitaban dos o 
tres ensayos si la respuesta requerida era saltar a una plataforma. Modaresi 
(1990) demostró que sólo elevando un poco la palanca operante y permi- 
tiendo saltar a la rata a una plataforma tras su respuesta, se reducía signifi- 
cativamente el número de ensayos necesarios para adquirir la conducta de 
evitación. En definitiva, todas estas investigaciones apuntan a que la elec- 
ción de la operante que se pretende reforzar determina el tiempo necesario 
para adquirirla, cuánto más se asemeje a la respuesta elicitada específica de 
la especie mayor es la velocidad de aprendizaje. 


Se han propuesto diferentes teorías para explicar el efecto que el entre- 
namiento de evitación discriminada tiene sobre los individuos. Aquí vamos 
a destacar la Teoría Bifactorial de Mowrer y la Hipótesis de Schoentfeld. 


La primera y más influyente aproximación teórica al problema de la 
evitación discriminada fue propuesta por Mowrer (1947) y estaba motivada 
por su preocupación acerca de la paradoja de que una conducta pudiera es- 
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tar reforzada por la ausencia de un evento. Su propuesta, denominada Teo- 
ría Bifactorial, sostiene que en el aprendizaje de evitación están implicados 
dos procesos interdependientes: el condicionamiento clásico de miedo al 
EC y el reforzamiento operante de la respuesta de evitación a través de la 
reducción del miedo. Este reforzamiento no es posible hasta que el miedo 
se condiciona al EC. En definitiva, desde esta posición se explica la con- 
ducta de evitación en términos de escape del miedo condicionado, más que 
en términos de prevención de la descarga. Es decir, la operante se refuerza 
por la reducción del «miedo» (o «ansiedad») generada por el EC (señal), 
y no por impedir la aparición del El (descarga). De esta forma, la Teoría 
Bifactorial predice una interacción constante entre los procesos clásico y 
operante, con cambios cíclicos en las respuestas de evitación: 1) la señal 
se condiciona de forma excitatoria aversiva mientras el sujeto no emite la 
respuesta de evitación (ya que aparece el El), 2) el sujeto emite la respuesta 
para escapar del miedo generado por el EC, impidiendo la aparición del El 
y provocando que la función del EC se extinga (al no aparecer el El), 3) una 
vez se extingue el EC deja de emitir la respuesta, volviendo a presentarse el 
El (lo que nos lleva de nuevo al punto 1). 


Sin embargo, el uso del miedo como una variable intermediaria en el 
aprendizaje de la evitación ha sido criticado por innecesario. Schoenfeld 
(1950) formuló otra teoría sobre la evitación discriminada en la que no 
aparecía este concepto. Este autor propuso que la señal adquiere, por con- 
dicionamiento clásico, funciones de consecuencia aversiva secundaria o 
condicionada. Los animales en la situación de evitación no pueden huir de 
la descarga porque no está presente; lo que emiten es una respuesta de esca- 
pe reforzada por la retirada de la señal de aviso. Así, en realidad la evitación 
sería una situación de reforzamiento negativo secundario o condicionado. 
Aunque ambas teorías se basan en la interpretación de la conducta de evi- 
tación discriminada como una forma de escape ante la señal, Schoenfeld no 
considera necesario aludir al efecto emocional en proceso. 


2.1.2. Evitación no discriminada de operante libre de Sidman 


En estos procedimientos la descarga se programa para que ocurra perió- 
dicamente, sin aviso, (cada 10 segundos, por ejemplo). Se especifica como 
respuesta de evitación una determinada conducta, y la aparición de esta 
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respuesta impide la administración durante un 
período fijo (30 segundos, por ejemplo) de la 
descarga programada. El resultado es que los Estamos  controla- 
individuos aprenden a evitar las descargas aun os por procedimientos 


. p S de evitación de operan- 
cuando no exista un estímulo de aviso. É 
te libre cuando guarda- 


En resumen, este procedimiento se constru- mos periódicamente un 


ye a partir de dos intervalos de tiempo: documento de textolen 
el que estamos traba- 


— Intervalo E-E, Er-Er, o Relojchoque-cho- jando (evitando perder 
que: es el intervalo entre las descargas en las modificaciones más 


, recientes por un fallo en 
ausencia de una respuesta. a 
el sistema), o cuando lla- 


— Intervalo R-E, R-Er, o Reloj  respues- mamos de vez en cuan- 
ta-choque: que es el intervalo entre la a 
respuesta y la descarga programada, es el S Ñ 


$ E Ñ nunca lo hacemos. 
decir, el período de seguridad. 


Ejemplo 


El procedimiento, al contrario que en la evitación discriminada (que 
requiere de ensayos discretos), permite que las respuestas de evitación se 
den en cualquier momento, ya que, ocurran cuando ocurran, reinician el 
intervalo R-El. Por esta razón se denomina a este tipo de evitación «de 
operante libre». De la misma forma, los resultados obtenidos con el uso de 
estos procedimientos también presentan ciertas diferencias respecto a la 
evitación discriminada: 


1. Implican generalmente períodos mucho más largos de entrenamien- 
to que los experimentos de evitación discriminada. 


2. Con frecuencia, aun después de un entrenamiento extenso, los ani- 
males no aprenden nunca a evitar todas las descargas. 


3. Distintos sujetos a menudo se diferencian enormemente en la forma de 
responder ante el mismo procedimiento de evitación de operante libre. 


Entre las hipótesis explicativas del fenómeno de la evitación de operan- 
te libre vamos a destacar también dos. La primera de ellas es la Hipótesis 
Propioceptiva de Sidman (1953). Esta hipótesis sugiere que el papel de la 
señal de aviso (no existente explícitamente en este tipo de procedimiento) 
lo ocupa la propia conducta del individuo. Todas las conductas que realiza 
el sujeto en la situación experimental (excepto la respuesta instrumental) 
quedan asociadas a la aplicación de la descarga, con lo que en el futuro, 


363 


PSICOLOGÍA DEL APRENDIZAJE 


cuando el sujeto las esté realizando, sufrirá una ansiedad comparable a 
la del sujeto al que, en un procedimiento de evitación discriminada, se le 
presentara la señal de aviso (luz, tono,...). La única manera que tendría de 
escapar de esa ansiedad es emitiendo la operante reforzada. 


Una segunda posibilidad es la que propone Anger (1963) en su Hipóte- 
sis Interoceptivo-temporal. Según este autor, en síntesis, sería el paso del 
tiempo (a través de la «interiorización» de los dos relojes, los dos intervalos) 
el que produciría la ansiedad que conduce al sujeto a responder. 


De nuevo, ambas hipótesis se centran en el escape del EC excitatorio 
aversivo como explicación de la conducta de evitación, pero existe otra 
teoría que elude este concepto y señala al reforzamiento positivo como 
causa de la respuesta observada, la Hipótesis de la Señal de Seguridad. 
De acuerdo con esta teoría (Dinsmoor, 2001), los estímulos asociados a los 
periodos de seguridad provocados por la respuesta de evitación (funda- 
mentalmente los que son resultado de la retroalimentación de desplazarse 
hacia una zona de la caja, saltar a una plataforma o pulsar una palanca) se 
convierten en estímulos condicionados inhibitorios aversivos por su contin- 
gencia negativa con la descarga. Por tanto, todos esos estímulos espaciales 
y propioceptivos que inevitablemente siguen a la respuesta de evitación 
acaban funcionando como un reforzador para ésta. Esta teoría ha recibi- 
do un considerable apoyo empírico. Por un lado, se ha comprobado que 
aquellos estímulos que se han condicionado de forma inhibitoria aversiva 
a lo largo de un procedimiento de evitación funcionan de forma eficaz co- 
mo consecuencias apetitivas para otras conductas (Morris, 1975). Por otro 
lado, se ha demostrado que la inclusión de estímulos explícitos (como una 
luz o un tono) que sigan a la emisión de la respuesta de evitación acelera su 
adquisición (Cándido, Maldonado y Vila, 1991, por ejemplo). 


2.1.3. La evitación de descarga aleatoria de Herrnstein-Hineline 


Puede mantenerse que la evitación de Sidman es realmente de tipo 
discriminativo, ya que, aunque el experimentador no programe ninguna 
señal de aviso, al presentar las descargas en intervalos temporales fijos los 
estímulos internos pueden adquirir esa función. 


Un procedimiento más eficaz de evitación fue diseñado por Richard 
Herrnstein y Philip Hineline (1966). Los autores introdujeron a ratas en 
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una caja de Skinner que contaba con una palanca y dos máquinas dispen- 
sadoras de descargas (A y B) conectadas al suelo de rejilla metálica de la 
caja (aunque sólo una a la vez). Las descargas de cada máquina eran in- 
tensas, breves y programadas en períodos de tiempo irregulares. La única 
diferencia entre ambas es que la máquina A las dispensaba según un orden 
más rápido que la B. En otras palabras, la frecuencia (número de choques 
por unidad de tiempo) de las descargas producidas por A era mayor que las 
producidas por B. Al principio se conectaba la maquina A, una presión de 
la palanca la desconectaba y conectaba la B, que se mantenía activa hasta 
dispensar una descarga, entonces se volvía a conectar A. Es decir, en ausen- 
cia de respuesta de evitación operaba el programa de descargas frecuentes 
y ejecutar la operante tenía como consecuencia la suspensión de este pro- 
grama y la activación del de descargas poco frecuentes, que operaba hasta 
la siguiente administración. Si no se volvía a ejecutar la respuesta, se ponía 
en funcionamiento el programa de descargas frecuentes. 


La máquina A sería como un registro E-E de Sidman, mientras que la B 
sería como un registro R-E, excepto que las descargas se dan a intervalos va- 
riables en ambos casos. En estas condiciones era posible que inmediatamen- 
te después de accionar la palanca, la máquina B produjese la descarga. Así, el 
apretar la palanca no prevenía necesariamente del estímulo aversivo. Todo lo 
que se podía hacer era cambiar las condiciones para decrecer la tasa total de 
descargas (mantener una frecuencia baja de administración de descargas). 


Los resultados obtenidos por estos autores mostraron un aumento de la 
probabilidad de emisión de la presión de la palanca (conducta de evitación). 


Herrnstein (1969) explicó el reforzamiento de la conducta de evitación 
no tanto como el resultado de omitir o retardar la presentación de la esti- 
mulación aversiva, sino como el debido a la reducción de su frecuencia to- 
tal o densidad, entendida ésta como una contingencia molar negativa entre 
las tasas de respuesta y de consecuencias aversivas. 


2.2. Variables que afectan al reforzamiento negativo 
En términos generales, cuanto mayor es la intensidad de la estimulación 


aversiva, mayor es la velocidad de adquisición de la conducta reforzada ne- 
gativamente. En el caso de la conducta de escape, la intensidad también de- 
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termina de la misma forma la rapidez con la que se emite. No obstante, hay 
que tener también en cuenta la familiaridad del sujeto con la estimulación 
aversiva. De la misma forma que la saciedad puede reducir la efectividad del 
reforzador, la habituación (en los El) y la extinción (en los EC) pueden tam- 
bién reducir la efectividad de las consecuencias aversivas, tanto para la ad- 
quisición de conductas (evitación/escape) como para su supresión (castigo). 


Además de la intensidad de los estímulos aversivos, existen otros pará- 
metros que determinan el reforzamiento negativo, principalmente en los 
procedimientos de evitación libre y de descargas aleatorias. 


En el procedimiento de evitación libre de Sidman la tasa de respuestas 
está determinada por los intervalos E-E y R-E. Cuanto mayor es la fre- 
cuencia de las descargas en ausencia de respuestas (menor intervalo E-E) y 
mayores sean los períodos de seguridad (mayor intervalo R-E), mayor será 
la probabilidad de que el animal aprenda la respuesta de evitación. Esta re- 
lación también se cumple teniendo en cuenta los valores relativos, es decir, 
además de su valor absoluto, el hecho de que el intervalo R-E sea mayor 
que el E-E también mejora la adquisición de la respuesta de evitación. 


En la evitación de descarga aleatoria esta relación también se da, no 
obstante, hay que tener en cuenta que, dada la naturaleza del procedimien- 
to, la evitación no será nunca absoluta. Es más, algunas respuestas pueden 
ir inmediatamente seguidas de descargas. 


3. CASTIGO 


Existen diferentes aproximaciones teóricas al estudio del castigo, aquí 
vamos a centrarnos en tres. La primera empieza con el mismo Thorndike 
(1911). Este autor propuso que el reforzamiento positivo y el castigo impli- 
can procesos simétricamente opuestos, así como el reforzamiento positivo 
fortalece la conducta, el castigo la debilita. Es decir, las consecuencias ne- 
gativas de una conducta debilitan la asociación entre dicha conducta y los 
estímulos presentes en la situación. 


La segunda, ya comentada en un apartado anterior (1.3., Procedimientos 
de condicionamiento operante y estados emocionales), es la Teoría de la res- 
puesta emocional condicionada, propuesta de Estes (1944), así que no nos 
detendremos de nuevo en ella. 


366 


CONTROL AVERSIVO EN EL CONDICIONAMIENTO OPERANTE 


La tercera y última aproximación que vamos a ver es la Teoría de las 
respuestas competitivas reforzadas negativamente (Dinsmoor, 1954). 
Esta teoría explica el castigo en términos de la adquisición de respuestas 
de evitación incompatibles con la respuesta castigada. La supresión de 
la conducta no se considera un reflejo del debilitamiento de la respuesta 
castigada, más bien, se explica en términos del fortalecimiento de aquellas 
respuestas competitivas que evitan eficazmente la estimulación aversiva. 


Independientemente de la explicación a la que uno se adhiera, los datos 
experimentales recogidos (principalmente a partir de la década de 1960) 
han ayudado a definir los parámetros óptimos para el uso eficaz de este 
procedimiento. En el siguiente apartado se destacan los más relevantes. 


3.1. Variables que afectan al castigo , 
Ejemplo 
Podemos ver el efecto de 


estas variables de una 
manera muy sencilla 


Recordemos que el procedimiento básico 
del castigo positivo (llamado así por la con- 


tingencia positiva existente entre la conducta 
y la consecuencia: si se da una, se da la otra 
con mayor probabilidad, y viceversa) consiste 
en presentar un estímulo aversivo contingente- 
mente después de una respuesta específica. El 
resultado esperable del procedimiento es la su- 
presión (reducción de su probabilidad de emi- 
sión) de la respuesta en cuestión. E igual que 
para reforzar una conducta ésta debe emitirse, 
para poder aplicar un procedimiento de castigo 
sobre una determinada respuesta su aparición 
en ausencia del castigo debe resultar probable. 
Esta es la visión más estándar del castigo, sin 
embargo, de la misma forma que Premack 
(1959, 1962) demostró que el reforzamiento 
no es absoluto sino relativo, más tarde exten- 
dió el mismo principio al castigo (Premack, 
1971). Más concretamente, si tras establecer 
una jerarquía de preferencias, en función de 
la frecuencia en la ocurrencia de diferentes 


utilizando la conducta 
de conducir como ejem- 
plo (es necesario enten- 
der la «multa» como 
una forma de reforzador 
negativo secundario, EC 
inhibitorio apetitivo): 


Intensidad. Las infrac- 
ciones con más cuantía 
de multa suelen produ- 
cirse en menor grado 
que las leves. Por ejem- 
plo, aparcar el coche en 
«zona azul» es más fre- 
cuente que saltarse un 
semáforo en rojo. 


Inmediatez. Las «mul- 
tas»  Impuestas por 
agentes de tráfico, más 
cercanas al momento de 
la infracción, suprimen 
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la conducta de una ma- 
nera más eficaz que las 
notificaciones que lle- 
gan meses después por 
correo postal. De hecho, 
si los radares enviasen 
las notificaciones de 
manera instantánea por 
SMS, por ejemplo, las 
infracciones se reduci- 
rían más rápidamente y 
de manera más específI- 
ca. Este último aspecto 
es importante, ya que 
en ocasiones, esta fal- 
ta de inmediatez lejos 
de reducir la probabili- 
dad de una conducta en 
concreto (sobrepasar un 
límite de velocidad, por 
ejemplo) lo que generan 
es que la conducción sea 
ansiógena. 


respuestas, hacemos contingente la emisión de 
una conducta menos preferida con el acceso a 
otra más preferida, la primera es reforzada. Pe- 
ro si forzamos al sujeto a emitir una respuesta 
tras la emisión de una más preferida, el efecto 
es el contrario: la que se emitió en primer lugar 
ve reducida su probabilidad de emisión en el 
futuro, es decir, es castigada. 


No obstante, los estudios de laboratorio nor- 
malmente suelen ejercer un mayor control tanto 
sobre la conducta que se va a suprimir como 
sobre la consecuencia punitiva. Así, como ya se 
ha comentado con anterioridad, en lugar de apli- 
car castigo sobre alguna respuesta que el sujeto 
ya emite con alguna probabilidad, los estudios 
suelen comenzar con la adquisición de alguna 
operante mediante reforzamiento positivo para 
luego superponer una contingencia de castigo 
(que suele consistir en la presentación de al- 
gún estímulo aversivo, como una descarga). La 
mayoría de la investigación sobre el castigo se 


ha realizado siguiendo este esquema, lo que implica que: a) no parten de la 
concepción relativista de Premack, b) los resultados son la suma del efecto del 
castigo y del reforzamiento (ya que se aplican simultáneamente). A pesar de 
esto, los hallazgos encontrados ponen razonablemente de manifiesto las varia- 
bles de las que depende la efectividad del castigo para suprimir la conducta. 


A) Intensidad del estímulo aversivo. Al igual que ocurre con la magni- 
tud del reforzador en el entrenamiento de recompensa, cuanto más 
intensa sea la estimulación aversiva, más eficaz resultará para supri- 
mir las respuestas, de hecho, en las condiciones adecuadas, puede 
hacerlo totalmente (Appel, 1961). Cuando esto pasa y la respuesta 
se suprime por completo, puede darse un fenómeno paradójico: que 
la conducta reaparezca más tarde. Esto se debe a que tras la supre- 
sión repentina de la respuesta el sujeto deja de tener contacto con 
la consecuencia aversiva y, tras un tiempo, la emisión de la misma 
se realiza cuando la contingencia de castigo ya no está activa. Esta 
reaparición de la respuesta suprimida (semejante a la Recupera- 
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ción Espontánea tras la Extinción) ha 
hecho pensar a algunos autores, entre 
ellos a Skinner (1953), que el castigo 
no es un método eficaz para suprimir la 
respuesta, sin embargo, existen traba- 
jos que demuestran lo contrario. Mas- 
serman (1946), por ejemplo, comprobó 
con gatos que las conductas suprimidas 
con castigo podían seguir sin aparecer 
incluso 20 meses después de aplicar el 
procedimiento. 


Inmediatez y demora del estímulo aver- 
sivo. Como en cualquier otro procedi- 
miento de condicionamiento (clásico u 
operante), la alta contigúidad es un ele- 
mento favorecedor. Por tanto, el aumen- 
to del intervalo R-Er produce una menor 
supresión de la conducta (Cohen, 1968). 
Algunos autores (Estes, 1944; Hunt y Br- 
ady, 1955), sin embargo, han encontrado 
que los resultados son muy parecidos 
independientemente de si el castigo se 
aplica de manera demorada o inmedia- 
tamente tras la respuesta. Sin embargo, 
Azrin (1956) ha matizado estos datos. 
Según este autor, esto se debe a una ex- 
posición a las contingencias demasiado 
breve. En uno de sus experimentos com- 
probó que si la sesión se extendía a una 
hora el efecto inicial de disrupción sobre 
la operante generada por las reacciones 
al estímulo aversivo (presente tanto en el 
grupo con demora como en el inmedia- 
to), se limitaba al castigo inmediato. En 
definitiva, que con el tiempo suficiente, 
el castigo demorado suprimía en menor 
medida la conducta. 


Ejemplo 


Graduación de la intensi- 
dad. El aumento progre- 
sivo de la gravedad de la 
multa por sobrepasar los 
límites de alcohol pue- 
de haber contribuido a 
cierta insensibilidad por 
parte de los conducto- 
res a una pena que ac- 
tualmente es de enorme 
intensidad. Es probable 
que si se hubiese empe- 
zado por el nivel de in- 
tensidad que se aplica en 
este momento la supre- 
sión hubiese sido más 
generalizada y definitiva. 


Experiencia previa. Aque- 
llos individuos que no 
han sido expuesto du- 
rante bastante tiempo a 
castigo por conducir en 
moto sin casco (por vivir 
en una población muy 
pequeña, por ejemplo), 
tienen una historia de re- 
forzamiento tan extensa 
(aunque sea por refor- 
zamiento negativo al no 
evitar despeinarse) que 
probablemente se mues- 
tren menos sensibles a 
las multas cuando cam- 
bien de ambiente (al mu- 
darse a una gran ciudad, 
por ejemplo). 


Castigo  discriminati- 
vo. Si solamente somos 
multados al pasar por 
determinado radar o si 
está presente un agente 


369 


PSICOLOGÍA DEL APRENDIZAJE 


de tráfico (y nunca en su 
ausencia), es muy pro- 
bable que la infracción 
sólo deje de cometerse 
cuando está ese radar o 
agente delante. 


Programa de 
Dejaremos de  «sal- 
tarnos un STOP» más 
rápidamente si cada vez 
que lo hacemos somos 
multados (RF1) que si 
sólo somos multados de 
media una de cada cinco 
veces (RV5). 


castigo. 


Reforzamiento  concu- 
rrente. Es más proba- 
ble que las multas por 
exceso de velocidad ten- 
gan mayor efecto entre 
aquellos cuyo entorno 
no admira ese tipo de 
comportamiento que 
entre aquellos que son 
elogiados por correr con 
el vehículo. 


Conducta alternativa 
reforzada. Las multas 
por usar vehículos que 
contaminan en exceso 
serían más eficaces si, 
por ejemplo, se subven- 
cionase la compra de 
vehículos ecológicos, 
se hiciera más barato 
y eficiente el trasporte 
público o se mejorase la 
infraestructura para la 
circulación de bicicletas. 


Manipulaciones motiva- 
cionales. Más del 70% de 
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Cambios graduales en la intensidad del estí- 
mulo aversivo. Un factor muy importante 
del castigo es la forma en que se introduce 
la consecuencia aversiva. Si, por ejemplo, 
se utiliza una descarga de alta intensidad 
cuando se comienza el procedimiento, la 
operante se verá gravemente suprimida. Se 
producirá mucha menos supresión de la 
conducta si se utiliza inicialmente un cas- 
tigo suave, y se va incrementando gradual- 
mente la intensidad de la descarga a lo largo 
del entrenamiento. Así, la exposición inicial 
a una suave estimulación aversiva que no 
altera mucho la conducta reduce los efectos 
de un castigo intenso posterior (Azrin, Holz 
y Hake, 1963). Por el contrario, la exposi- 
ción inicial a una estimulación aversiva in- 
tensa aumenta los efectos supresores de un 
castigo suave posterior (Miller, 1960). 


Experiencia previa. Si la fase de reforza- 
miento previo fue muy larga y el volumen 
de reforzamiento muy grande, los efectos 
del castigo serán menores. 


Efectos discriminativos del estímulo aversi- 
vo. Si la respuesta se castiga en presencia de 
un estímulo discriminativo, pero no cuando 
el estímulo está ausente, a esto se le llama 
Castigo Discriminativo (y al discriminativo 
estímulo delta o discriminativo negativo). 
Con una exposición continuada al discrimi- 
nativo, los efectos supresores del castigo se 
limitan a la presencia de dicho estímulo. 


Programa de castigo. Exactamente del mis- 
mo modo que el reforzamiento no tenía que 
administrarse cada vez que se produjera 
la respuesta instrumental, el castigo puede 
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también administrarse intermitentemen- 
te. Así, el castigo puede suministrarse 
después de un número fijo de respuestas 
(Programa de Castigo de Razón Fija) o 
variable (Programa de Castigo de Razón 
Variable), así como también puede pro- 
gramarse la aparición de la consecuen- 
cia aversiva tras la emisión de la primera 
respuesta tras un intervalo de tiempo 
(Programa de Castigo de Intervalo, Fijo 
o Variable). En términos generales, los 


los accidentes en tránsi- 
to al centro de trabajo 
(según datos del DGT 
del 2012) se producen 
durante el trayecto de 
ida. Es probable que la 
aplicación de multas 
para reducir las infrac- 
ciones tenga menor efec- 
to cuando el sujeto está 
muy motivado para lle- 
gar a tiempo al destino. 


programas de castigo continuos son más 
efectivos que los intermitentes (Zimmerman y Fester, 1963; Filby y 
Apple, 1966). 


Programa de reforzamiento compuesto. Toda técnica de castigo es 
una técnica mixta, ya que castigar una conducta requiere que esa 
conducta haya sido reforzada o esté siendo reforzada a la vez. Así, 
podemos encontrarnos estos tres casos: 


— Castigo sobre líneas-base apetitivas: aquí actúan simultáneamen- 
te el castigo y el reforzamiento positivo sobre la misma respuesta. 


— Castigo sobre líneas-base defensivas: concurren el castigo y el 
reforzamiento negativo (escape/evitación). 


— Castigo sobre líneas-base de extinción: se castiga una respuesta 
que previamente ha sido reforzada, pero que en el momento de 
aplicar el castigo está siendo extinguida. 


La eficacia del castigo se verá reducida por la eficacia relativa 
del procedimiento con el que esté compitiendo (en el caso del re- 
forzamiento positivo y negativo) o aumentada por la eficacia de 
proceso de extinción de la misma conducta. 


Existencia de una conducta alternativa reforzada. En muchos expe- 
rimentos, la respuesta castigada es también la única respuesta que 
el sujeto puede realizar para obtener un reforzamiento positivo. La 
disponibilidad de una fuente alternativa de reforzamiento aumenta 
enormemente la supresión de las respuestas producida por el castigo 
(Herman y Azrin, 1964). 
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I) Manipulaciones motivacionales. Aunque no es un parámetro propio 
de la contingencia de castigo, se ha demostrado que su eficacia para 
suprimir una conducta es mayor si se reduce la motivación para rea- 
lizar esa respuesta (Dinsmoor, 1952). Experimentalmente, para una 
conducta reforzada con comida, se ha comprobado que no sólo la su- 
presión es mayor si los animales se encuentran al 85% de su peso que 
si están al 60% (Azrin, Holz y Hake, 1963), sino que incluso cuando 
se aumenta su motivación (nivel de privación) la operante suprimida 
no reaparece (Masserman, 1946). 


3.2. LA EFICACIA RELATIVA DEL CASTIGO PARA SUPRIMIR 
LA CONDUCTA 


Si gritamos y regañamos a nuestro hijo cuando rompe uno de sus ju- 
guetes puede que no vuelva a hacerlo. La reprimenda está funcionando 
como consecuencia aversiva en este caso, pero sólo porque efectivamente 
su contingencia positiva con la conducta está reduciendo su probabilidad 
de emisión futura. Esta es una cuestión importante, ya que en el lenguaje 
común suele utilizarse el término castigo sin tener en cuenta el efecto 
de la consecuencia sobre la conducta (función del estímulo), sino aten- 
diendo únicamente a aspectos morfológicos de la misma (topografía del 
estímulo). Como señalan Pierce y Cheney (2008), sólo podemos hablar 
de castigo cuando efectivamente la consecuencia suprime la conducta (lo 
que implica que, por definición, siempre funciona). El uso de supuestas 
consecuencias aversivas secundarias (como la reprimenda) conlleva un 
gran riesgo ya que su topografía no supone necesariamente una función 
concreta. Puede que al reprender al niño (en nuestro ejemplo) no sólo 
no estemos suprimiendo su conducta sino reforzándola. La reprimenda 
puede haberse asociado en mayor medida con la atención (que suele ser 
un poderoso reforzador generalizado) que con otros estímulos aversivos 
(como un azote). En este caso, por tanto, no podríamos hablar de castigo 
sino de reforzamiento positivo. 


El castigo ha ocupado (y lo sigue haciendo) un papel fundamental en 
la sociedad como método de control del comportamiento, o, por lo menos, 
mucho más que el entrenamiento de omisión, más difícil de aplicar de ma- 
nera sistemática y organizada por una sociedad. Las leyes, los sistemas edu- 
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cativos e incluso las reglas sociales están diseñadas prestando un especial 
cuidado a la ética, eficacia y proporcionalidad de los castigos programados. 
Sin embargo, su estudio no interesó de la misma forma a los investigadores, 
o, al menos, no desde el principio. Los primeros trabajos experimentales 
sobre el castigo (Thorndike, 1932; Skinner, 1938; Estes, 1944) concluyeron 
que su capacidad para modelar la conducta no sólo era muy reducida sino 
también poco estable en el tiempo. Tuvieron que pasar más de treinta años 
desde esas primeras afirmaciones para que otros trabajos experimentales 
defendieran lo contrario (Church, 1963; Solomon, 1964; Azrin y Holz, 1966, 
por ejemplo). Desde entonces, la investigación sobre el castigo ha demos- 
trado que con los parámetros adecuados la conducta puede ser suprimida 
de manera absoluta y en muy pocos ensayos, pero también que si no se 
controlan estos parámetros la supresión puede no ser total y/o reaparecer 
la conducta en el futuro. 


En definitiva, el uso del castigo conlleva ventajas y desventajas que hay 
que valorar antes de su puesta en práctica como técnica para la supresión 
de la conducta. Por un lado, provoca una reducción de la conducta a corto 
y largo plazo, pero, sobre todo, con un alto grado de inmediatez. Además, 
esta reducción demuestra una alta resistencia a un posterior recondi- 
cionamiento, en otras palabras, el recondicionamiento de una conducta 
eliminada mediante el castigo es mucho más lento y difícil que el condi- 
cionamiento de esa misma conducta si no ha sido anteriormente castigada. 
Pero, por otro lado, genera una serie de efectos colaterales que pueden no 
ser deseables, tales como ansiedad, agresión, neurosis o una redistribución 
no prevista de la conducta del sujeto (aumentando la tasa de ciertos com- 
portamientos y bajando la de otros, que no han sido sometidos al castigo). 
Vamos a abordar algunos de estos efectos más detenidamente. 


Como vimos al principio del capítulo, aquellos eventos que correlacio- 
nan con la presentación de estimulación aversiva pueden condicionarse 
de forma clásica, convirtiéndose en estímulos condicionados excitatorios 
aversivos. En una contingencia operante los eventos antecedentes que 
mantienen una contingencia positiva con el castigo de una conducta se 
convierten en estímulos discriminativos para esa conducta, pero también 
en ECs excitatorios aversivos, cuyo efecto es elicitar un reflejo al que suele 
denominarse ansiedad. Por tanto, cuando aplicamos algún procedimiento 
de castigo, la intensidad del estímulo aversivo determina la efectividad del 
procedimiento pero también aumenta las probabilidades de que el contexto 
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ambiental en el que se está aplicando adquiera la capacidad de provocar 
ansiedad en el sujeto. Este ambiente, susceptible de convertirse en ansióge- 
no, puede ser muy amplio y desconocido para el experimentador/educador/ 
terapeuta, abarcando tanto al lugar dónde se está aplicando el castigo (o a 
elementos del mismo), como al propio agente que lo aplica, como a estímu- 
los propioceptivos o interoceptivos generados por el propio sujeto. A esta 
cantidad y diversidad de eventos condicionables hay que añadir la posibi- 
lidad de que el efecto se extienda a otros estímulos que nunca estuvieron 
presentes, a través de fenómenos de generalización. El resultado es que con 
el uso extendido del castigo, sobre todo cuando se utilizan consecuencias de 
magnitudes elevadas, se corre un riesgo considerable de ampliar los estímu- 
los generadores de ansiedad para el sujeto, con el consiguiente desarrollo 
de trastornos del comportamiento. 


La presencia de eventos ansiógenos suele disminuir la tasa general de 
respuesta operante, provocando que ciertas conductas, que en ausencia de 
estos estímulos se emitirían con una alta probabilidad, no aparezcan. El 
efecto del castigo, por tanto, no se limita a la disminución de la conduc- 
ta objetivo sino que puede afectar al comportamiento general del sujeto. 
Pero esta redistribución «no deseada» del comportamiento no se produce 
exclusivamente mediante la supresión del comportamiento sino también 
con el aumento de la tasa de otras conductas. Aunque se abordará más 
adelante con más detalle, en términos generales, cuando un sujeto emite 
una conducta es porque dicha conducta ha sido sometida en el pasado 
(en un contexto parecido) a algún procedimiento de refuerzo. Cuando este 
refuerzo ha sido positivo, que es el caso más frecuente, la probabilidad de 
emisión de esa conducta depende, entre otras variables, del nivel de sacie- 
dad o privación respecto al reforzador (comida, afecto, atención, dinero, 
etc.). Podemos, efectivamente, suprimir dicha conducta mediante castigo, 
pero de esa forma no alteramos una importante variable causal: su mo- 
tivación (privación/saciedad). En estos casos es altamente probable que 
aparezcan otras respuestas (ya existentes en el repertorio del sujeto o fruto 
de la variación conductual) y que éstas sean reforzadas por la consecuencia 
que reduce el estado de privación. Por ejemplo, podemos suprimir que un 
niño nos interrumpa (conducta reforzada por nuestra atención) mientras 
hablamos con otro adulto mediante castigo pero puede que se fortalezcan 
otras respuestas como agredir a su hermano pequeño o subirse a un lugar 
peligroso (conductas que también están reforzadas por nuestra atención). 
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El último de los «efectos colaterales» del castigo que vamos a co- 
mentar es la conducta agresiva que suele generar. Como hemos visto, la 
propia presentación de estimulación aversiva (en función del contexto, 
la intensidad, la especie, etc.) puede generar agresión como respuesta 
refleja, lo que suele denominarse como agresión elicitada. Cuando se 
sitúa a dos organismos juntos y se les aplica estimulación aversiva sue- 
len atacarse entre ellos, fenómeno que se ha encontrado en multitud de 
especies (Ulrich y Azrin, 1962), incluida la humana (Azrin, Hutchinson 
y Hake, 1963). Pero ese tipo de agresión no es el único que puede darse 
cuando aplicamos procedimientos de castigo, la agresión también pue- 
de ser operante. Cuando la presencia de un organismo (el domador, el 
adiestrador, o el educador, por ejemplo) correlaciona con la presentación 
de estimulación aversiva, la agresión dirigida hacia ese organismo puede 
verse reforzada como conducta de escape/evitación si llega a suprimir 
dicha estimulación. 


En el siguiente apartado veremos otros efectos «no deseados» que pue- 
den derivarse del uso del castigo. 


3.3. Fenómenos paradójicos en el castigo 


En ocasiones los organismos parecen ir buscando el castigo, o lo que es 
lo mismo (eliminando el carácter teleológico de la frase), la presentación 
de estímulos aversivos tras la emisión de la operante lejos de reducir su 
probabilidad de emisión la aumenta. Aunque, por motivos de parsimonia 
o simplemente didácticos, solemos centrarnos en pocas variables para ex- 
plicar un comportamiento, la realidad es multifactorial y, sobre todo, no se 
divide en ensayos. Hemos visto como la función elicitadora de los estímulos 
también afecta a las contingencias operantes, pero, además, el condiciona- 
miento no tiene porqué empezar con la aparición del estímulo discrimina- 
tivo en el que estamos centrando nuestra atención (como observadores) ni 
terminar con el reforzador que hemos programado (como experimentador 
o docente). Las relaciones de contingencia y contigúidad son mucho más 
lábiles y afectan a muchos más eventos de los que un análisis superficial 
suele tener en cuenta. En este apartado vamos a analizar cómo una situa- 
ción en la que aparentemente se está castigando una conducta tiene un 
efecto completamente diferente al esperado. 
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3.3.1. La conducta masoquista 


El discriminativo negativo (o estímulo delta) asociado al castigo está 
muy relacionado con algunas situaciones en las que éste no es eficaz para 
suprimir la conducta. La búsqueda del castigo puede aparecer en una situa- 
ción en la que el reforzamiento positivo sólo está disponible cuando se cas- 
tiga la operante. En tales circunstancias, el castigo puede convertirse en una 
señal, o estímulo discriminativo, para la disponibilidad del reforzamiento 
positivo. Por ejemplo, un niño hace algo «malo», recibe una reprimenda y 
acto seguido se le dan muestras de cariño del progenitor arrepentido. Si la 
privación de «cariño» es elevada, aunque se presente estimulación aversiva 
contingentemente a la conducta el resultado es un aumento de la tasa, en 
lugar de una reducción. 


Otra forma de adquirir esta conducta masoquista es mediante el con- 
tracondicionamiento de la consecuencia aversiva. Si condicionamos un 
estímulo (un EC o un El) asociándolo a otro 
con un efecto inverso pero más fuerte podemos 
cambiar el tipo de respuesta elicitada por dicho 
estímulo y, por tanto, su función cómo refor- 
zador o consecuencia aversiva. Por ejemplo, 


Ejemplo 


Un niño puede escapar 
de la reprimenda de 
su profesor corriendo. 


De esta manera, la re- 
primenda (que podría 
considerarse de manera 
general como un reforza- 
dor negativo secundario) 
funciona como un Ed+ 
para la conducta de co- 
rrer, ya que correlaciona 
con el reforzamiento ne- 
gativo de dicha conduc- 
ta. Esto puede derivar 
en que la reprimenda del 
profesor pierda eficacia 
para funcionar como Er- 
en un procedimiento de 
castigo positivo. En defi- 
nitiva, que el «¡no corras 
que es peorl» lejos de 
detener al niño le anime 
a correr más rápido. 
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podemos empezar emparejando descargas de 
poca intensidad (El aversivo que puede funcio- 
nar como consecuencia aversiva) con mucha 
comida (El apetitivo de mayor intensidad), para 
ir paulatinamente aumentando las descargas 
y disminuyendo la comida. De esta manera, la 
descarga terminará adquiriendo propiedades de 
EC excitatorio apetitivo, lo que le convertirá en 
un reforzador para las conductas operantes, y su 
presentación contingente funcionará como re- 
forzamiento positivo en lugar de como castigo. 


3.3.2. Círculo vicioso 
En el caso de la conducta masoquista estaba 


implicado el reforzamiento positivo, pero po- 
demos encontrar fenómenos muy parecidos en 
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conductas reforzadas negativamente (escape/evitación). Cuando se entrena 
una conducta de escape (por ejemplo saltar al otro compartimento de la 
caja lanzadera) ante un evento aversivo (una descarga, por ejemplo), el pro- 
pio evento adquiere funciones discriminativas positivas para esa conducta. 
Es decir, una vez se ha adquirido la conducta de escape, la presencia del 
estímulo aversivo aumenta las probabilidades de emisión de dicha conduc- 
ta. Esto implica que el uso de dicho estímulo como consecuencia aversiva 
para esa conducta (en un procedimiento de castigo) no tendrá como efecto 
la supresión de la respuesta sino todo lo contrario. A este fenómeno, efecto 
de utilizar un discriminativo positivo como consecuencia aversiva para la 
misma conducta, se le denomina círculo vicioso. 


3.4. Otras estrategias de supresión de la conducta 


Aunque el presente manual tiene como objetivo abordar fenómenos bá- 
sicos, y otras asignaturas se encargarán de profundizar mucho más en la 
tecnología que de ellos se desprende, nos gustaría aprovechar el final de este 
capítulo para señalar algunos fenómenos relacionados con la supresión de 
la conducta operante que no requieren del uso del castigo, eludiendo de esta 
forma los posibles «efectos colaterales» descritos en los apartados anteriores. 


3.4.1. Entrenamiento de omisión 


El entrenamiento de omisión consiste en establecer una contingencia 
negativa entre una determinada respuesta y la administración de un refor- 
zador. En términos probabilísticos diríamos que la probabilidad de que se 
presente un reforzador es menor si el sujeto emite la respuesta que si no la 
emite. Así, la forma que tiene el sujeto de conseguir el reforzador es omi- 
tiendo (no dando) la respuesta, ya que si la emite no se presenta el refor- 
zador que habría aparecido si no hubiera respondido. Este procedimiento, 
como ya sabemos, resulta en una disminución de la tasa de respuesta. 


Al igual que podíamos establecer un paralelismo entre los procedimientos 
de reforzamiento positivo y de castigo positivo: en ambos la contingencia 
es positiva y en ambos podíamos utilizar programas de razón, de intervalo, 
etc. También podemos observar cierta similitud entre el Entrenamiento de 
Omisión y la Evitación de Sidman: en ambos el signo de la contingencia es 
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negativo y en ambos puede hablarse de intervalos consecuencia- consecuen- 
cia (entre consecuencias) y respuesta-consecuencia. El intervalo consecuen- 
cia-consecuencia (al que también nos hemos referido como E-E) nos indica 
la frecuencia con la que se van a presentar las consecuencias cuando el sujeto 
no emite la respuesta. Por contra, el intervalo respuesta-consecuencia nos 
indica el tiempo que va a transcurrir entre que el sujeto emite la respuesta y 
el retraso añadido en la presentación de la próxima consecuencia. En estos 
procedimiento no se despliegan señales de aviso y la respuesta, se emita en 
el momento en que se emita, retrasa la aparición del reforzador. 


Las variables que determinan la eficacia reductora del entrenamiento 
de omisión, por tanto, también son muy parecidas a las que determinan 
la capacidad para instaurar una conducta mediante un entrenamiento de 
evitación. Para que se produzca aprendizaje en los procedimientos de en- 
trenamiento de omisión, es decir, para que desaparezca la respuesta con la 
que estamos trabajando, los intervalos de presentación de la consecuencia 
en ausencia de respuestas (intervalos E-E) deben ser de menor duración 
que los de entrega de la consecuencia tras la respuesta del sujeto (intervalos 
R-E). Otro factor a tener en cuenta para una mayor eficacia del procedi- 
miento es el ajuste paramétrico en función de la ejecución. Con esto nos 
referimos a que se debe empezar por valores pequeños del intervalo R-E, 
para, paulatinamente y teniendo en cuenta la ejecución del sujeto, ir au- 
mentado el criterio de pausa. 


El entrenamiento de omisión tiene como efecto inmediato sobre la tasa 
de conducta un mantenimiento residual de la respuesta. Se sigue obser- 
vando durante un plazo de tiempo relativamente corto una tasa pequeña 
de respuestas motivadas por la presencia del propio reforzador. Cuando 
al sujeto se le presenta el reforzador debido a que no ha dado la respuesta 
castigada negativamente (entrenamiento de omisión), el sujeto comienza 
de nuevo a responder. Sin embargo, esta tasa residual acaba por desapare- 
cer a largo plazo, dando lugar a la total eliminación de la conducta y a una 
extrema resistencia al recondicionamiento. 


3.4.2. Modificación de la fuerza de conductas alternativas 
Cuando analizamos los fenómenos básicos de conducta solemos centrar 


nuestra atención en una sola respuesta objetivo, reforzamos pulsar una te- 
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cla, desplazarnos a otra instancia de la caja o decir una palabra concreta. 
Pero desde un punto de vista estricto, cualquier comportamiento (por muy 
básica o «simple» que sea la situación) es una conducta de elección: elegi- 
mos pulsar o no pulsar, movernos o quedarnos quietos, decir la palabra o 
quedarnos callados. Siempre estamos eligiendo, siempre hay alguna alter- 
nativa de comportamiento posible, incluso en las situaciones que solemos 
etiquetar como «forzadas». 


Cuando estudiamos la conducta de elección lo hicimos analizando la 
respuesta de los sujetos expuestos a programas concurrentes, en los que el 
experimentador disponía de un mayor control de las variables que determi- 
naban cada programa (componente). Pero incluso un programa simple de 
razón fija puede interpretarse como un programa concurrente en el que la 
respuesta de pulsar la tecla es reforzada positivamente por la presentación 
de comida, y la de no pulsar es reforzada negativamente por la evitación 
del «esfuerzo». Sabemos que el aumento de la razón (número de respuestas 
requerido para la aparición del reforzador) tiene como efecto (evidente, 
por otra parte) el aumento de la tasa de respuesta, pero que hay un límite a 
partir del cual el sujeto deja de responder, es decir, se suprime la operante. 
Este hecho podría interpretarse como un aumento del reforzamiento nega- 
tivo de la conducta alternativa (no pulsar), ya que hemos incrementado el 
nivel de esfuerzo, el valor de la consecuencia aversiva del otro componente. 


Este razonamiento puede extenderse a cualquier situación, permitién- 
donos la supresión (o, al menos, la reducción de la tasa) de una conducta 
mediante la manipulación de variables relacionadas con su competitividad 
respecto a otras respuestas disponibles. Recordando lo que vimos sobre la 
conducta de elección, podemos manipular desde el intervalo R-Er (demora 
del reforzamiento) de las alternativas, variables relacionadas con la con- 
secuencia como la intensidad, la calidad o la cantidad. En definitiva, cual- 
quier modificación que convierta a la alternativa en más atractiva reducirá 
la probabilidad de emisión de la conducta objetivo. 


Otra forma de suprimir una determinada conducta relacionada con lo 
anterior es fortaleciendo alguna respuesta cuya emisión sea incompatible 
con la anterior. Existen respuestas que son topográficamente contrarias, 
no se puede subir y bajar al mismo tiempo, hablar en un volumen bajo y 
gritando, correr e ir despacio. Si reforzamos una conducta (R1) que no pue- 
de emitirse a la vez que otra (R2) inevitablemente reduciremos la tasa de 
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conducta de ésta última (R2). Por ejemplo, podemos suprimir la conducta 
de levantarse del asiento durante una clase aplicando un procedimiento de 
castigo (cada vez que se levanta se le reprende), pero podemos obtener el 
mismo efecto reforzando la conducta de estar sentado. 


3.4.3. Extinción 


El último de los procedimientos alternativos al castigo que vamos a des- 
cribir es la extinción de la propia operante (no confundir con la extinción 
del reforzador descrita anteriormente). Romper la contingencia positiva 
respuesta-consecuencia (en las conductas reforzadas positivamente) o la 
contingencia negativa respuesta-consecuencia (en las reforzadas negativa- 
mente, entrenamiento de evitación/escape) en presencia de los respectivos 
discriminativos resultará en un descenso de la operante (frente a estos 
discriminativos). Extinguir el control de los discriminativos positivos es 
un procedimiento muy eficaz para suprimir la operante pero requiere no 
sólo de la identificación del reforzador sino, lo que es más importante, del 
control sobre la aparición de dichos reforzadores. Como ya hemos visto, 
la extinción no implica un desaprendizaje o un olvido, es un nuevo apren- 
dizaje que sustituye al anterior siempre que se mantengan determinadas 
circunstancias. Un cambio en el contexto (respecto al que ha estado pre- 
sente durante la extinción), un tiempo sin contacto con el discriminativo 
extinguido, incluso la exposición al reforzador (sin que se haya emitido la 
operante), pueden provocar la restauración de la capacidad de control de 
los discriminativos que habíamos extinguido y, por tanto, la emisión de la 
conducta que habíamos suprimido. 


3.4.4. Modificaciones motivacionales 


Considerar que un comportamiento observado no es el efecto de otra va- 
riable equivale a considerar que no obedece a ninguna causa. Explicar una 
conducta con argumentos del tipo «lo ha hecho porque sí», «hace esto por- 
que quiere» o «lo hace porque le apetece», suele esconder o bien una falta 
de información sobre las verdaderas causas del comportamiento o bien una 
falta de motivación para exponerlas (por la relación coste/beneficio que le 
supone, por ejemplo). Los reflejos incondicionados son efecto de la presen- 
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cia de estímulos incondicionados, los estímulos condicionados causan los 
reflejos condicionados, y la emisión de las conductas operantes dependen 
del estado motivacional (grado de privación asociado con el reforzador), 
historia de reforzamiento y castigo del sujeto y de la estimulación presente 
(discriminativos positivos y negativos) en ese momento, todos eventos an- 
teriores a la propia emisión de la respuesta. 


Que una determinada operante se emita a una tasa alta se debe, al me- 
nos, a la interacción de estas variables. Y, por tanto, la manipulación de 
cada una de ellas por separado puede reducir por sí misma la fuerza (pro- 
babilidad de emisión) de dicha operante. 


La motivación es un constructo que suele referirse, en términos gene- 
rales, a la fuerza de una determinada conducta. No obstante, sabemos que 
esa «fuerza» depende de múltiples variables (las principales las hemos co- 
mentado más arriba). Consideramos que una persona está motivada a ira 
la playa cuando las probabilidades de que lo haga son muy altas, también 
suele utilizarse al revés: «ir a la playa le motiva mucho» o «lleva tanto tiem- 
po sin ir a la playa que seguro que tiene muchas ganas (está muy motivado 
a ir)». La motivación suele operativizarse principalmente atendiendo o bien 
al grado de privación/saciedad respecto al reforzador, o bien al valor del 
propio reforzador. Evidentemente, en situaciones de reforzamiento negati- 
vo o de castigo, el concepto de motivación está relacionado casi exclusiva- 
mente con el valor del estímulo aversivo (intensidad, grado de habituación, 
etc.). 


Retomando el título del apartado, es posible suprimir una conducta 
sin aplicar el castigo mediante la manipulación de variables relacionadas 
con la motivación. Como adelantábamos al principio, si una conducta se 
emite es porque ha sido reforzada y si conseguimos identificar el evento 
responsable de su mantenimiento podemos saciar al sujeto respecto a ese 
reforzador, reduciendo así su emisión. Por ejemplo, si en una caja de Skin- 
ner reforzamos a una paloma con comida cada vez que pica una tecla roja, 
la tasa de respuesta de la paloma aumentará. Podemos reducir dicha tasa 
simplemente dejando acceso libre a la paloma a la comida, de forma que 
cuando la introduzcamos en la caja de Skinner esté saciada de comida. 


Pero, ¿cómo saciamos a un sujeto cuando el reforzador no es primario? 
Como ya sabemos, un reforzador puede etiquetarse como primario (ED) o 
secundario (EC) en función de si sus propiedades reforzantes requieren o 
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no de aprendizaje por parte del sujeto. Si una conducta está siendo man- 
tenida por reforzamiento secundario podemos reducir su tasa de emisión 
saciando al sujeto respecto al reforzador primario del que depende el se- 
cundario. En otras palabras, una sobreexposición al El con el que se condi- 
cionó el EC reduce la capacidad reforzante del EC. 


También podemos reducir la tasa de una operante mantenida con un 
reforzador primario devaluando dicho reforzador. El procedimiento es 
muy sencillo, si asociamos de forma pavloviana un reforzador primario 
(El, comida, por ejemplo) con otro estímulo de signo contrario (aversivo), 
provocaremos un descenso en la probabilidad de emisión de las conductas 
reforzadas con dicho estímulo. 


La capacidad reforzante de un reforzador secundario también puede 
anularse (y, por tanto, reducir la tasa de la respuesta en la que influye) a tra- 
vés de otros métodos: la extinción y el contracondicionamiento. El reforza- 
dor secundario, como cualquier otro EC, es susceptible de perder su capaci- 
dad elicitadora (y su capacidad reforzante) si se le presenta suficientemente 
al sujeto sin ir emparejado con el El (o EC, sin el condicionamiento original 
fue de segundo orden). De la misma forma, podemos cambiar el signo de 
un reforzador secundario sometiéndole a contracondicionamiento, de posi- 
tivo a negativo. Aunque este último caso implicaría la utilización de estimu- 
lación aversiva, tanto en el contracondicionamiento del reforzador como 
en el posterior condicionamiento de la operante, ya que el procedimiento 
pasaría de considerarse un reforzamiento positivo a un castigo. 


La saciedad y la extinción del reforzador pueden resultar muy útiles 
con reforzadores secundarios «simples», sin embargo, muchas conductas 
son mantenidas con reforzadores secundarios generalizados, y en estos 
casos dichos procedimientos no son igual de efectivos. Consideramos a un 
reforzador secundario como generalizado cuando se ha condicionado con 
diferentes reforzadores (primarios y/o secundarios). Dos de los ejemplos 
más claros son el dinero y la atención (de otros individuos). El dinero es 
un estímulo emparejado con multitud de reforzadores primarios (comida, 
agua, etc.), secundarios (ropa, transporte, etc.) e incluso otros secundarios 
generalizados (seguridad, estatus, poder, etc.). La atención desde edades 
muy tempranas suele asociarse a la comida, el contacto, la protección, etc. 
El efecto de estos reforzadores generalizados sobre la conducta no depende 
de una única privación ni de su contingencia con un solo evento, lo que 


382 


CONTROL AVERSIVO EN EL CONDICIONAMIENTO OPERANTE 


les convierte en muy resistentes a la saciedad y a la extinción. En otras 
palabras, aunque de repente estemos completamente saciados de comida 
(o de poder, o de ropa) el dinero va a seguir estando relacionado con otros 
eventos reforzantes, aunque de pronto todo el transporte sea gratis (y se ex- 
tinga la relación que mantiene con el dinero) el dinero seguirá manteniendo 
cierta contingencia con otros reforzadores. En definitiva, la sensibilidad a 
la saciedad y a la extinción de la conductas mantenidas por reforzadores 
secundarios generalizados es prácticamente nula. 


Una estrategia con la que sí podemos disminuir la tasa de una operante 
sin la presentación de estimulación aversiva (independientemente de que 
el reforzador sea primario, secundario o generalizado) es con la reducción 
de la intensidad del reforzador. Cuando se presentan reforzadores menos 
intensos que los que se han utilizado en el pasado para mantener la misma 
conducta, se produce un descenso de la tasa de respuesta, aunque esté sien- 
do sometida a reforzamiento positivo. Como se ha explicado en capítulos 
anteriores, a este fenómeno se le denomina «contraste conductual negativo». 


4. PROGRAMAS CONCURRENTES Y ESTIMULACIÓN AVERSIVA 


Aunque el estudio del efecto de los diferentes programas sobre los pa- 
trones de conducta se ha centrado mayoritariamente en el reforzamiento 
positivo, hemos comentado en este capítulo algunos hallazgos respecto a 
los programas de castigo. En este apartado se describirán las principales 
características de la conducta generada por programas concurrentes (dos 
o más programas simples diferentes disponibles a la vez) que involucran 
estimulación aversiva. 


4.1. Conducta de elección 


La investigación de laboratorio sobre la denominada conducta de elec- 
ción se ha llevado a cabo principalmente mediante el análisis del compor- 
tamiento de los sujetos ante programas de reforzamiento concurrentes. 


Desde los primeros trabajos en esta línea (Herrnstein, 1961) se com- 
probó que la elección de los sujetos, medida como la localización de sus 
respuestas en una u otra opción, eran función de la frecuencia relativa de 
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reforzamiento de cada una de las alternativas disponibles. Los resultados 
de estos experimentos llevaron a definir la denominada Ley de Igualación 
(Herrnstein, 1970): (B/B,) = (1//r,), donde 1 se refiere a una de las alterna- 
tivas y 2 al sumatorio, B son las elecciones, y r el valor del reforzador (fre- 
cuencia, principalmente, aunque también puede ser magnitud o calidad). 


Esta relación entre la frecuencia de reforzamiento positivo y la elección 
de los sujetos obtuvo inmediatamente un alto apoyo empírico (Catania, 
1963; Stubbs y Pliskoff, 1969; Schneider, 1973; por ejemplo), pero también 
empezó a comprobarse la validez de dicha ley con otros tipos de procedi- 
mientos. 


4.1.1. Elección y reforzamiento negativo 


Baum (1973) comprobó cómo se ajustaba la Ley de Igualación a la con- 
ducta controlada por escape, usando descargas como evento aversivo y el 
tiempo de estancia en una localización de la caja como conducta de elec- 
ción. El experimento consistió en reforzar con 2' de tiempo fuera y la desac- 
tivación de una descarga de 7-mA a 4 palomas por situarse en el punto A o 
en el B de la caja. Cada punto aplicaba el reforzamiento bajo un programa 
IV diferente que fue variándose: 0.5'-8”, 0.5'-4”, 1-2”, 2-2”, 4-2”, 8-2, 8-1”, 8”- 
0.5”. El ajuste de la elección de los sujetos a la frecuencia de reforzamiento 
de cada alternativa fue aumentando a lo largo del experimento, siendo los 
datos de las últimas cuatro semanas los más útiles para comparar los re- 
sultados con los de experimentos anteriores con reforzamiento positivo. Se 
comprobó que la reducción de la tasa de refuerzo negativo funcionaba de 
la misma forma que la reducción de reforzamiento positivo. No obstante, 
esta conclusión sólo es apoyada por dos de las cuatro palomas, ya que el 
resto mostraron elecciones contrarias consideradas por los autores como 
aberrantes. 


Hutton, Gardner y Lewis (1978) entrenaron a tres palomas a responder 
a dos teclas mediante reforzamiento positivo, para después mantener esa 
respuesta en un programa concurrente, primero sin y luego con periodos de 
descarga. La fase experimental empezó con un programa concurrente IV1?”- 
IV1' de 1 minuto sin descarga como reforzador, y luego continuó a través de 
8 condiciones en las que se variaba la frecuencia de reforzamiento de cada 
alternativa (0.33, 0.11, 0.33, 1.00, 3.00, 9.00, 3.00). Los resultados mostra- 
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ron un importante ajuste a la Ley de Igualación en función de la frecuencia 
relativa de reforzamiento negativo de cada alternativa. Aunque este ajuste 
no fue perfecto, al igual que en ciertas preparaciones con reforzamiento 
positivo (Myers y Myers, 1977), ya que se observó cierta infraigualación, 
probablemente por la baja discriminabilidad entre pequeñas diferencias en 
las frecuencias. 


La replicación de estos resultados con ratas conlleva una problemática 
añadida para conseguir que el sujeto emita alguna operante mientras es 
expuesto a la descarga, ya que la respuesta típica de esta especie frente a 
este tipo de estímulos es la parálisis. Logue y De Villiers (1978) empeza- 
ron su experimento entrenando a tres ratas para responder a dos palancas 
mediante varios programas de reforzamiento positivo concurrente IV-IV. 
Tras esto incluyeron la presentación de descargas durante el intervalo (en 
el programa de reforzamiento positivo) haciendo contingente el escape to- 
tal con la presión de la palanca (que antes no tiene efecto en ese periodo). 
Una vez consiguieron un comportamiento estable fueron reduciendo gra- 
dualmente el tiempo de escape de 30' a 15”. La fase experimental (a la que 
sólo llegaron 2 de las 3 ratas tras casi tres meses) consistió en exponer a 
los sujetos al mismo procedimiento variando el tiempo de escape para cada 
alternativa: 60'-60', 40-120", 120'-40', 210”-35', 120'-40', 60'-60', 40-120", 35'- 
210'. Los resultados mostraron un buen ajuste de las elecciones en función 
de la frecuencia de escape. 


4.1.2. Elección y castigo 


El efecto del castigo en programas concurrentes no ha sido tan estudia- 
do como el del reforzamiento, aunque se han realizado algunos trabajos 
que indican que los sujetos son capaces de ajustar su elección a ciertas 
características del castigo. 


Holz (1968) comprobó que, aunque la tasa de respuesta general decrece 
(una vez se ha adquirido por reforzamiento positivo), la tasa relativa se 
ajusta a la frecuencia relativa de castigo en cada alternativa. 


Deluty (1976) llevó a cabo un experimento en el que entrenó a tres ratas 
a presionar la palanca mediante una consecución de programas concu- 
rrentes IR-IR (Intervalo aleatorio, similar al IF pero con un grado de pro- 


385 


PSICOLOGÍA DEL APRENDIZAJE 


babilidad del refuerzo), pasando de 15”-15” a 30”-30”, 1”-1” y terminando en 
1.5'-1.5', intervalo que se siguió usando para mantener la respuesta. Tras 
este entrenamiento se añadió a cada alternativa otro programa IR pero de 
castigo. De esta manera, cada alternativa ofrecía la misma frecuencia de 
reforzamiento pero diferente de castigo. Los resultados mostraron que el 
incremento de la tasa relativa de castigo en una alternativa reducía la tasa 
relativa con la que era elegida. 


Se encontraron efectos muy similares usando programas múltiples en 
lugar de programas concurrentes (Tullis y Walter, 1968). 


4.2. Conducta auto-controlada y conducta impulsiva 


La conducta auto-controlada, en contraposición a la conducta impul- 
siva, se ha concebido tradicionalmente como la elección de la alternativa 
con mayor valor relativo de reforzamiento pero más demorada. Esto im- 
plica que se han utilizado programas concurrentes (con dos componentes, 
principalmente) en los que se ha manipulado el tiempo entre la emisión de 
la respuesta y la aparición de la consecuencia (demora del reforzamiento), 
y el valor del reforzador (en cantidad, frecuencia, duración o calidad), es 
decir, mediante contingencias de reforzamiento positivo (Green y Snyder- 
man, 1980; Ito y Asaki, 1982; Navarick y Fantino, 1975, 1976; Rachlin y 
Green, 1972; por ejemplo). Se considera, por tanto, comportarse de manera 
impulsiva la elección de la alternativa con un reforzamiento de menor valor 
relativo pero más inmediato. 


El uso o no de estimulación aversiva no afecta a la conceptualización 
de ambos comportamientos, siempre que los componentes del programa 
apliquen un procedimiento de reforzamiento. En concreto, el uso de proce- 
dimientos de reforzamiento negativo conllevaría que la conducta impulsiva 
o auto-controlada sería una conducta de escape (o evitación), pero, de la 
misma forma, se consideraría como impulsivo elegir el escape del evento 
aversivo con menor valor relativo (menor tiempo de desaparición del evento 
aversivo, menor reducción de la intensidad del evento aversivo, etc.) pero 
más inmediato. Gran parte de los estudios que han evaluado este tipo de 
comportamientos se han realizado con humanos y usando ruidos molestos 
como evento aversivo (Navarick, 1982; Solnik, Kannenberg, Eckerman, y 
Waller, 1980), encontrando una mayor proporción de elecciones impulsivas. 
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Cuando el procedimiento usado es de castigo, sin embargo, se hace 
necesario un cambio en la consideración del papel de la demora. Se con- 
sideraría una respuesta impulsiva la elección del castigo con mayor valor 
(intensidad o duración) pero más demorado, mientras que elegir el castigo 
más leve e inmediato se consideraría un comportamiento auto-controlado 
(Mischel y Grusec, 1967). Deluty (1978), en un estudio pionero, evaluó la 
conducta de cuatro ratas expuestas a una situación de autocontrol que 
involucraba procedimientos de castigo. En el primer experimento man- 
tuvo constante la intensidad de la descarga (0.3 mA) y su duración (1.0”) 
para ambas alternativas variando su demora de aparición: 30”-30”, 30”-40”, 
40”-30”, 50”-5”, 5”-50”, 20”-5”, 5”-20”, 20”-10”, y 10”-20”. No se encontró 
ajuste a la Ley de Igualación en ningún caso, los sujetos siempre eligieron 
la alternativa más demorada (impulsiva). En el segundo experimento, sin 
embargo, se manipuló la duración de la descarga (1”-1”, 1”-2”, 2”-1”, 0.5”- 
2”, 2”-0.5”, 0.5”-3”, 3”-0.5”, 2”-3”, 3”-2”), los sujetos eligieron de manera 
consistente las alternativas con menor duración de descarga, además, se 
observó una considerable infraigualación. En el tercer y último experimen- 
to se manipuló tanto la demora como la duración de la descarga (estudio 
de autocontrol). La alternativa 1 ofrecía siempre 1” de descarga, mientras 
que la 2 ofrecía 2”. Los sujetos fueron expuestos a las siguientes secuencias 
de duración de demora: 


A. 10'20",2030% 515", 30'40",2:12 40'30*% 
B. 10-20”, 20”-40”, 5”-10”, 30-60”. 


Los resultados mostraron como la preferencia por la alternativa 1 (1” de 
descarga) iba aumentando en función del aumento de la demora. Es decir, 
cuánto mayor era la demora mayor era el número de elecciones auto-con- 
troladas. 
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RESUMEN 


Las presiones de supervivencia a las que se vio sometida nuestra especie 
provocaron que se seleccionasen determinadas reacciones innatas ante ciertos 
eventos. Llorar antes estímulos novedosos es muy adaptativo ya que aumenta 
las posibilidades de alertar a tus progenitores si aparece un depredador, alejar- 
se de eventos que provocan dolor ayuda a mantener la integridad de nuestro 
cuerpo, etc. Pero no sólo se seleccionaron reacciones innatas (respuestas incon- 
dicionadas) sino también mecanismos para moldear nuestro comportamiento 
de manera que reduzcamos al máximo nuestro contacto con estos estímulos 
aversivos. Aquellas conductas que tienen como consecuencia la aparición de 
un evento aversivo disminuyen su frecuencia de emisión, mientras que aquellas 
que nos permiten escapar de él o evitar que aparezca aumentan. 


La velocidad con la que aprendemos a dejar de emitir una conducta castiga- 
da o a emitir una que es reforzada negativamente depende de múltiples factores 
tales como la intensidad del estímulo aversivo, la historia previa, la inmediatez 
de la consecuencia o la frecuencia con la que se da la contingencia, entre otras. 


En el capítulo se señala, además, que los procedimientos de castigo positivo 
no son ni la única manera de suprimir una conducta ni necesariamente la más 
adecuada. El uso de estimulación aversiva no sólo puede generar reacciones 
agresivas y/o ansiedad, sino conllevar efectos paradójicos como la conducta 
masoquista o círculos viciosos. Se recomienda, por tanto, valorar otras opcio- 
nes como el uso del castigo negativo, la extinción, el refuerzo de conductas 
incompatibles o la manipulación de variables motivacionales. 


CONTROL AVERSIVO EN EL CONDICIONAMIENTO OPERANTE 


TÉRMINOS DESTACADOS 


Castigo positivo: procedimiento en el que se hace contingente la emisión de 
una respuesta con la aparición de un evento aversivo (o reforzador negati- 
vo). Tiene como efecto la disminución de la probabilidad futura de emisión 
de dicha conducta. 


Escape: modo de reforzamiento negativo en el que la respuesta aumenta su 
probabilidad de emisión por hacer desaparecer un estímulo aversivo (o 
reforzador negativo) que ya estaba presente. 


Estímulo aversivo: evento considerado desagradable para el sujeto que puede 
producir reacciones como alejamiento, parálisis, agresión, entre otras, en 
función de su naturaleza e intensidad. 


Estímulo reforzador negativo: evento cuya aparición contingente como 
consecuencia a una conducta modifica su probabilidad de emisión futura. 
Cuando la contingencia es positiva suprime la respuesta mientras que cuan- 
do es negativa la refuerza. Puede ser primario (El aversivo) o secundario 
(EC excitatorio aversivo o EC inhibitorio apetitivo). 


Evitación: modo de reforzamiento negativo en el que la respuesta aumenta su 
probabilidad de emisión por impedir la presentación del estímulo aversivo 
(o reforzador negativo). 
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ERRORES COMUNES 


Castigo negativo y extinción. Tanto los procedimientos de castigo como los 


de extinción (de un comportamiento reforzado positivamente) tienen como 
resultado un descenso de la frecuencia con la que aparece la conducta a 
la que se está aplicando. Distinguir el castigo positivo de la extinción no 
parece difícil, mientras que el primero implica la aparición de un evento 
aversivo tras la emisión de la respuesta, el segundo consiste en no presentar 
el reforzador positivo que antes seguía a la respuesta cuando ésta se emite. 
Esta relación (R-no Er+) es la que puede generar cierta confusión entre el 
castigo negativo y la extinción, pero esto es porque este esquema resume pe- 
ro no describe completamente ambos procedimientos. Vamos a centrarnos 
en dos diferencias que pueden aclarar esta posible confusión: 


a) Una conducta debe estar (o haber estado) siendo reforzada para que 
se emita con cierta frecuencia. La extinción detiene la aparición de la 
consecuencia reforzante específica, el castigo negativo no. Es decir, 
podemos aplicar castigo negativo a cierta conducta mientras ésta sigue 
siendo reforzada (ya que el reforzador positivo que se omite puede ser 
otro diferente). 


b) El castigo negativo requiere del establecimiento de una contingencia 
negativa entre la emisión de la respuesta y a aparición de algún evento 
apetitivo. Por tanto, la relación debe de describirse de la siguiente forma 
R-no Er+/no R-Er+. Cuando extinguimos una conducta reforzada positi- 
vamente, el reforzador positivo no se presenta aunque el sujeto no emita 
la respuesta (R-no Er+ / no R-no Er+). 
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